规模的相关内容 - 漫话开发者

2025-06-19 talkingdev

Moonshot AI开源模型Kimi-Dev-72B在SWE-bench测试中创下60.4%新纪录

近日，Moonshot AI推出的Kimi-Dev-72B开源模型在SWE-bench Verified测试中取得了60.4%的优异成绩，成为当前开源模型中的新标杆。这一突破性成果得益于其采用的大规模强化学习技术，该技术通过在Docker环境中直接修补...

2025-06-19 talkingdev

DeepNVMe最新版本实现了多项突破性升级：首先扩展了对模型检查点（checkpointing）和推理工作负载的支持，使深度学习框架能更高效地管理训练中间状态；其次新增PCIe Gen5 NVMe的扩展能力，显著提升存储带宽以应对大...

2025-06-18 talkingdev

最新发布的o3-pro模型在回答质量上显著优于基础版o3，但其响应时间明显延长，且大规模API调用成本过高。技术团队建议用户通过聊天界面并行查询来优化使用效率。作为o3的同赛道产品，o3-pro目前仍定位于特殊场景解决...

2025-06-18 talkingdev

人工智能公司MiniMax在GitHub开源了其4560亿参数规模的推理模型M1，该模型采用创新的混合专家架构（MoE）并引入'闪电注意力'技术，实现百万token级别的超长上下文处理能力（相当于DeepSeek R1的8倍）。特别值得注意...

2025-06-16 talkingdev

人工智能领域迎来重要进展，Featherless AI近日正式成为Hugging Face平台的推理服务提供商。这一合作将为开发者带来革命性的无服务器（serverless）模型访问体验，用户无需管理底层基础设施即可直接调用包括Meta、Qw...

2025-06-16 talkingdev

开发者Frank McSherry近日在GitHub个人博客中分享了使用Rust语言实现Datalog逻辑编程语言的技术细节。这篇题为《Datalog in Rust》的文章引发了技术社区广泛关注，在Hacker News上获得268点热度并产生28条深度讨论。...

2025-06-11 talkingdev

强化学习预训练（Reinforcement Pre-Training, RPT）作为大语言模型（LLM）与强化学习（RL）协同进化的前沿技术，提出了一种革命性的规模化训练范式。该技术通过创新性地利用海量文本数据进行通用强化学习预训练，在...

2025-06-11 talkingdev

上海科研团队最新发布的DiTorch和DiComm技术框架，突破了AI训练对同构硬件的依赖。该创新通过统一编程接口整合NVIDIA、AMD等异构芯片架构，在1,024块规格差异显著的芯片集群上训练千亿参数模型时实现116%的超线性效...