苹果机器学习研究团队提出了一种名为LaDiR(Latent Diffusion Reasoner)的创新推理框架,为大型语言模型(LLM)的文本推理能力带来了显著提升。LaDiR框架的核心在于巧妙地将连续潜在表示的强大表现力与潜在扩散模型...
Read MorePyTorch官方博客近日发布了一项名为AutoSP的创新技术,该技术旨在自动化地将标准Transformer训练代码转换为序列并行代码,用于长上下文大语言模型(LLM)的训练。AutoSP已与微软的DeepSpeed框架深度集成,使得开发者...
Read More随着人工智能大模型规模的不断增长,模型评估(Eval)环节正在迅速演变为一个新的计算瓶颈,其成本在某些情况下甚至已经逼近甚至超过了模型训练的开销。根据最新的行业分析,一次全面的AI评估运行费用可能高达数万美...
Read MoreMistral AI最新发布了Mistral Medium 3.5模型,这是一款拥有1280亿参数的密集模型(128B dense model),专为驱动远程Vibe代理而设计,能够在云端执行长时间、异步的编码任务,用户可直接从命令行界面(CLI)或Le Ch...
Read More据最新报道,OpenAI 已实质上放弃了最初雄心勃勃的“星际之门”(Stargate)自建超大规模数据中心集群计划。该计划最初宣称要建设20个巨型数据中心,但据报道,由于项目合作方在数据中心的最终控制权上无法达成一致,...
Read More近日,一则关于Anthropic旗下AI编程工具Claude Code的严重Bug在开发者社区引发轩然大波。据GitHub Issue #53262报告,当用户在Git提交信息中写入“HERMES”一词时,Claude Code会错误地将本次请求路由至一个额外的、可...
Read More人工智能编程领域迎来新玩家,初创公司Poolside正式发布Laguna系列编程模型,包含Laguna M.1与Laguna XS.2两款产品。其中Laguna M.1作为该系列的旗舰基础模型,专为长周期、复杂推理的编程任务设计(Long-horizon co...
Read MoreNVIDIA日前发布了名为Nemotron 3 Nano Omni的全新多模态模型,标志着其在长上下文多模态智能领域的重要进展。该模型专为文档、音频和视频分析设计,在MMlongbench-Doc和VoiceBench等多个权威基准测试中均取得了业界...
Read More