数学基准的相关内容 - 漫话开发者

2025-06-24 talkingdev

小模型逆袭！7B参数模型通过强化学习教师机制超越671B大模型

一项突破性研究展示了小模型通过创新训练方法战胜巨型模型的可能。日本Sakana.AI团队开发的"教师模型"采用全新范式——这些模型不需要自行解决问题，而是被直接提供问题和正确答案，专注于生成清晰易懂的解决方案解释...

2024-05-23 talkingdev

MathBench是一项旨在全面评估大语言模型数学能力的新基准。这一基准的设计初衷是为了填补当前评估工具在数学领域的空白，提供一个更加系统化和科学化的评估方法。MathBench不仅涵盖了基础数学运算，还包括高级数学理...