首份关于大语言模型(LLM)服务经济学的综合模型揭示,随着AI公司竞相部署高token消耗的推理模型和智能体,当前扩展推理能力的方法比预期更快遭遇瓶颈。研究发现,网络延迟而非带宽成为主要瓶颈,阻碍了公司通过简单...
Read More人工智能公司MiniMax在GitHub开源了其4560亿参数规模的推理模型M1,该模型采用创新的混合专家架构(MoE)并引入'闪电注意力'技术,实现百万token级别的超长上下文处理能力(相当于DeepSeek R1的8倍)。特别值得注意...
Read MoreOpenAI正式推出o3-pro模型,作为o3模型的迭代升级版本,该模型在科学计算、编程辅助及商业任务处理能力上均有显著提升。值得注意的是,OpenAI此次将o3-pro的定价策略调整为降价80%,大幅降低企业及开发者的使用门槛...
Read More苹果公司研究团队通过定制化谜题环境对大型推理模型(LRMs)进行了系统性评估,揭示了人工智能推理能力的重要局限性。研究发现,随着任务复杂度提升,LRMs会经历推理效能先上升后急剧下降的拐点现象,最终在高度复杂任...
Read More人工智能研究公司DeepSeek近日宣布对其R1推理模型进行重大升级,并将最新版本发布于Hugging Face平台。这一进展标志着自然语言处理领域的重要突破,R1模型以其卓越的推理能力和高效的参数利用在业界备受关注。此次更...
Read More近期大型推理模型的显著成果常被归功于思维链(CoT)技术,尤其是通过从基础大语言模型(LLM)中采样CoT进行训练以发现新推理模式的过程。然而,一项最新研究对这种解释提出了质疑。该研究通过系统性地调查中间标记...
Read More小米近日在GitHub上开源了MiMo推理模型项目,该项目旨在解锁语言模型的推理潜力,涵盖从预训练到后训练的全过程。MiMo模型通过优化训练流程和引入新的推理机制,显著提升了语言模型在复杂任务中的表现。这一开源项目...
Read More近期GitHub上出现了一个名为AI Hedge Fund的开源项目,该项目通过现代推理模型探索自动化交易的新路径。与同类尝试相比,其创新性在于采用了基于角色提示(persona based prompting)的技术框架,能够聚合对各类基础资...
Read More