[论文推荐]ThinkLite-VL:仅用1.1万训练样本实现视觉语言模型高效推理
talkingdev • 2025-04-15
12597 views
近期发表于arXiv的研究ThinkLite-VL通过创新性地应用蒙特卡洛树搜索(MCTS)技术量化样本难度,在视觉语言模型(VLM)领域取得突破性进展。该方法仅需11,000个训练样本即可显著提升模型推理能力,且无需依赖知识蒸馏等复杂技术。该研究通过算法自动识别对模型性能提升最具价值的核心样本,相比传统需要数百万样本的VLM训练方法,将数据需求降低两个数量级。这一技术突破不仅大幅降低计算资源消耗,更为医疗影像分析、自动驾驶等数据获取成本高的垂直领域提供了可行性方案。论文中展示的基准测试表明,该方法在VQA和图像描述生成任务中达到SOTA性能的92%,为小样本学习开辟了新范式。