数据效率的相关内容 - 漫话开发者

2025-04-15 talkingdev

[论文推荐]ThinkLite-VL：仅用1.1万训练样本实现视觉语言模型高效推理

近期发表于arXiv的研究ThinkLite-VL通过创新性地应用蒙特卡洛树搜索（MCTS）技术量化样本难度，在视觉语言模型（VLM）领域取得突破性进展。该方法仅需11,000个训练样本即可显著提升模型推理能力，且无需依赖知识蒸馏...

2025-04-02 talkingdev

腾讯ARC实验室最新发布的SEED-Bench-R1基准测试，为多模态大语言模型（MLLM）在复杂视频任务中的表现提供了系统评估框架。该研究重点关注强化学习（RL）和监督微调（SFT）等后训练方法，揭示了RL在视觉感知任务和数...

2024-02-14 talkingdev

《流体盒子》介绍了一种新颖的实验系统，用于在动态的现实世界环境中测试强化学习算法，解决了模拟强化学习应用中复杂流体动力学的挑战。它展示了无模型强化学习算法从简单奖励中生成复杂行为的能力，并通过离线强化...

2024-01-25 talkingdev

对比偏好优化（CPO）是一种新的优化技术，现在应用于机器翻译。与DPO相比，CPO在数据效率方面更高。重要的是，该目标函数防止模型提出合理但不准确的翻译，从而使模型在WMT上取得了有竞争力的表现。