漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-15 talkingdev

[论文推荐]ThinkLite-VL:仅用1.1万训练样本实现视觉语言模型高效推理

近期发表于arXiv的研究ThinkLite-VL通过创新性地应用蒙特卡洛树搜索(MCTS)技术量化样本难度,在视觉语言模型(VLM)领域取得突破性进展。该方法仅需11,000个训练样本即可显著提升模型推理能力,且无需依赖知识蒸馏...

Read More
2025-04-02 talkingdev

[开源]SEED-Bench-R1:基于强化学习的视频理解新基准

腾讯ARC实验室最新发布的SEED-Bench-R1基准测试,为多模态大语言模型(MLLM)在复杂视频任务中的表现提供了系统评估框架。该研究重点关注强化学习(RL)和监督微调(SFT)等后训练方法,揭示了RL在视觉感知任务和数...

Read More
2024-02-14 talkingdev

论文:利用流体控制现实世界物体的强化学习实验系统

《流体盒子》介绍了一种新颖的实验系统,用于在动态的现实世界环境中测试强化学习算法,解决了模拟强化学习应用中复杂流体动力学的挑战。它展示了无模型强化学习算法从简单奖励中生成复杂行为的能力,并通过离线强化...

Read More
2024-01-25 talkingdev

论文:对比优化偏好技术在机器翻译中的应用

对比偏好优化(CPO)是一种新的优化技术,现在应用于机器翻译。与DPO相比,CPO在数据效率方面更高。重要的是,该目标函数防止模型提出合理但不准确的翻译,从而使模型在WMT上取得了有竞争力的表现。

Read More