漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-02 talkingdev

[开源]SEED-Bench-R1:基于强化学习的视频理解新基准

腾讯ARC实验室最新发布的SEED-Bench-R1基准测试,为多模态大语言模型(MLLM)在复杂视频任务中的表现提供了系统评估框架。该研究重点关注强化学习(RL)和监督微调(SFT)等后训练方法,揭示了RL在视觉感知任务和数...

Read More
2025-03-14 talkingdev

[开源]统一视觉解码:REF-VLM革新多模态大模型任务

近日,GitHub上发布了一个名为REF-VLM的开源项目,该项目通过引入基于三元组的结构化表示,统一了多模态大语言模型(LLMs)中的视觉解码任务。多模态LLMs是当前人工智能领域的前沿技术,能够在处理视觉和文本信息时...

Read More
  1. Prev Page