数学推理的相关内容 - 漫话开发者

2025-11-28 talkingdev

开源|DeepSeekMath-V2：迈向可自我验证的数学推理新突破

深度求索公司最新发布的DeepSeekMath-V2研究论文在GitHub平台引发广泛关注，该研究标志着数学推理AI模型向自我验证能力迈出了重要一步。这项前沿技术通过引入自我验证机制，使模型能够自动检查数学推导过程的正确性...

2025-11-11 talkingdev

近日，前沿开源实验室Moonshot AI正式发布其新一代Kimi K2思维模型，该模型采用混合专家架构，具备320亿激活参数与1万亿总参数的庞大规模。在技术性能方面，Kimi K2在前沿知识理解、数学推理及代码生成领域均达到当...

2025-10-08 talkingdev

三星蒙特利尔AI实验室最新研究《Less is More: Recursive Reasoning with Tiny Networks》提出突破性方法，通过递归架构使参数量极少的神经网络具备复杂推理能力。该研究在arXiv公开的论文（编号2510.04871）中展示...

2025-10-01 talkingdev

智谱AI正式推出新一代开源权重模型GLM-4.6，该模型最突出的特性是支持高达200K tokens的上下文窗口，使其能够处理更长的文档和复杂任务链。官方宣称在编程与逻辑推理任务上已接近Anthropic公司发布的Claude Sonnet 4...

2025-08-15 talkingdev

大语言模型(LLM)通过Tokenization技术将文本分解为更小的单元，再转换为数值表示进行处理。这一过程涉及BPE(字节对编码)、WordPiece和SentencePiece等主流算法，直接影响模型的计算成本、上下文理解能力和多语言处理...

2025-07-28 talkingdev

阿里巴巴最新开源的Qwen3-235B思维模型在技术领域取得重大突破，该模型在AIME25数学竞赛中达到92.3%的准确率，与OpenAI的O4-mini性能相当，并在编码基准测试中以74.1%的LiveCodeBench得分实现超越。这一2350亿参数的...

2025-07-10 talkingdev

最新研究发现，在数学问题中插入诸如'有趣的事实：猫一生大部分时间在睡觉'等无关短语，会导致大语言模型的错误应答率较基准水平飙升300%。这种与查询无关的对抗性触发现象具有跨模型规模的迁移性，且蒸馏版模型表现...

2025-06-17 talkingdev

GitHub最新开源项目CoRT（Code Interpreter Reasoning）提出了一种创新的方法，通过提示工程（hint engineering）对大语言模型进行后训练（post-train），使其能够将复杂计算任务智能分配给外部代码解释器执行。这一...