推理的相关内容 - 漫话开发者

2025-03-17 talkingdev

Baseten推出生产级AI推理平台，助力AI初创企业规模化应用

在大规模运行推理任务时，将AI转化为产品的过程中，这既是最大的挑战，也是最关键的一环。Baseten通过结合软件、专业知识和研究成果，推出了一个全面的推理平台，为生产级AI原生产品提供所需的一切支持。该平台涵盖...

2025-03-13 talkingdev

Hugging Face 团队近日发布了其 DeepSeek 推理模型的开源复制项目 OpenR1 的最新更新。此次更新揭示了一个有趣的发现：当针对竞争性编程进行专门调优时，小型模型的表现可以超越更大规模的模型。这一发现不仅挑战了...

2025-03-13 talkingdev

近日，GitHub开源项目LM-Implicit-Reasoning引发了广泛关注。该研究深入探讨了语言模型在逐步隐式推理方面的表现，揭示了其在处理包含变量作为减数的表达式时的泛化能力不足的问题。语言模型在自然语言处理（NLP）领...

2025-03-12 talkingdev

Reka公司近日开源了其最新推出的Reka Flash 3模型，这是一款拥有210亿参数的多功能模型，专门针对推理、聊天、编码和指令遵循等任务进行了优化。该模型在性能上与专有模型不相上下，并配备了32k的上下文长度，使其非...

2025-03-11 talkingdev

这项研究探索了如何通过强化学习来教授AI语言模型解决数独谜题，特别采用了Group Relative Policy Optimization (GRPO)技术，应用于Qwen 2.5等模型，无需依赖外部数据或更大模型的蒸馏。研究设计了一个多方面的奖励...

2025-03-11 talkingdev

最新研究展示了如何通过强化学习技术，使AI语言模型具备解决数独谜题的能力。该研究采用了Group Relative Policy Optimization (GRPO)方法，并在Qwen 2.5等模型上进行了实验，无需依赖外部数据或更大模型的蒸馏。研...

2025-03-06 talkingdev

Qwen团队近日发布了一款名为QwQ 32B的开源推理模型，该模型基于Apache 2.0许可证，性能与DeepSeek R1相当，甚至优于许多更大的蒸馏模型。团队通过结合基于结果的奖励机制、形式化验证和测试用例检查，使模型在数学和...

2025-03-04 talkingdev

近日，一项关于LLM（大语言模型）自我奖励推理的研究引起了广泛关注。该研究提出了一种创新的两阶段训练框架，使模型能够独立生成推理步骤、自我评估正确性，并在无需外部反馈的情况下迭代优化输出。这一框架结合了...