近日,GitHub开源项目LM-Implicit-Reasoning引发了广泛关注。该研究深入探讨了语言模型在逐步隐式推理方面的表现,揭示了其在处理包含变量作为减数的表达式时的泛化能力不足的问题。语言模型在自然语言处理(NLP)领...
Read More这项研究探索了如何通过强化学习来教授AI语言模型解决数独谜题,特别采用了Group Relative Policy Optimization (GRPO)技术,应用于Qwen 2.5等模型,无需依赖外部数据或更大模型的蒸馏。研究设计了一个多方面的奖励...
Read More最新研究展示了如何通过强化学习技术,使AI语言模型具备解决数独谜题的能力。该研究采用了Group Relative Policy Optimization (GRPO)方法,并在Qwen 2.5等模型上进行了实验,无需依赖外部数据或更大模型的蒸馏。研...
Read More近期,一项针对OpenAI的o1/o3和DeepSeek的R1等推理型LLM的研究揭示了这些模型在逐步逻辑推理能力方面的表现。研究通过对比人类认知能力,对这些模型进行了基准测试。结果显示,尽管LLM在复杂任务中表现出色,但在需...
Read More近日,R1-OneVision作为一种多功能的大型多模态模型,正式在GitHub上发布。该模型通过整合视觉与文本数据,在数学、科学、深度图像理解及逻辑推理等复杂任务中表现出色。R1-OneVision的设计旨在解决传统单一模态模型...
Read More科技界瞩目的人工智能公司DeepSeek正加快步伐,提前推出其备受期待的R2模型。原先计划于5月初发布R2模型的DeepSeek,现决定提前发布日期。新一代R2模型有望在编码技能上有所提升,并且能够处理除英语外的其他语言。...
Read More近日,社区推出了一款名为Flex 1的图像生成模型,该模型基于Flux Schnell进行微调,并采用Apache许可证。Flex 1的设计参数为8B,能够在保持高性能的同时实现快速运行。这一模型的推出为图像生成领域提供了新的工具,...
Read More近日,CodeI/O技术通过将代码转换为输入输出预测格式,显著提升了大语言模型(LLM)的推理能力。该方法通过教授通用推理原则,而非依赖代码语法,从而在多种推理任务中实现了性能优化。此外,通过多轮修订进一步验证...
Read More