推理能力的相关内容 - 漫话开发者

2026-07-27 talkingdev

我们终于有了证明自动化：Zstd-Lean 项目用大语言模型攻克依赖类型证明难题

在依赖类型语言的世界里，强大的类型系统往往意味着沉重的证明负担——开发者可能需要花费数小时才能发现要证明的命题根本就是错误的。这种高昂的认知开销使依赖类型编程长期停留在小众领域。如今，这一局面正在被打破...

2026-07-24 talkingdev

Moonshot AI 最新开源权重模型 Kimi K3 在单次前端竞技场（Frontend Arena）中以 1392 的 Elo 分夺得第一，排名较 Kimi K2.6 上升了 10 位，较 Kimi K2.7 Code 上升了 16 位，创下 Moonshot 模型史上最大跃升记录。...

2026-07-22 talkingdev

专攻 AI 编码的初创公司 Poolside 在 Hugging Face 上正式发布了其最新大型语言模型 Laguna S 2.1。该模型采用混合专家架构，总参数量高达 1180 亿，但每个 token 仅激活其中 80 亿个参数，在保持强大能力的同时实现...

2026-07-20 talkingdev

阿里巴巴通义千问团队正式公布Qwen3.8，这是一款参数规模高达2.4万亿的超大规模语言模型，并明确表示将以开放权重（Open-Weight）的方式面向全球发布。这不仅是Qwen系列模型参数的又一次飞跃，也反映出阿里巴巴在开...

2026-07-17 talkingdev

OpenAI 最新推出的 GPT-5.6 在 Codex 开发环境中首次引入了一套精细化的多模型任务分配机制，将工作负载自动分流至 Sol、Terra 和 Luna 三个特性鲜明的执行单元。其中，Sol 专门应对目标模糊但价值极高的复杂问题，...

2026-07-12 talkingdev

Meta正式推出了新一代AI模型Muse Spark 1.1，在工具调用、代码生成、计算机交互和多模态推理等关键维度上实现了显著升级。该版本通过深度的模型架构优化与训练数据配比调整，让模型在理解复杂指令并自主操控外部工具...

2026-06-27 talkingdev

据《华盛顿邮报》报道，OpenAI宣布其最新AI模型GPT-5.6的使用权将由美国政府审查决定。这意味着该模型将不再向所有用户开放，而是需要经过联邦政府的批准，尤其是针对高风险或敏感领域的使用场景。此举旨在防止技术...

2026-06-13 talkingdev

人工智能初创公司 Anthropic 近日遭遇了一场波及全球的技术出口管制风波。据路透社报道，美国政府已下令 Anthropic 暂停所有外国公民对其最新旗舰大语言模型 Mythos 5 和 Fable 5 的访问权限。Anthropic 在周五迅速...