过去几年,AI行业一直遵循着类似摩尔定律的发展轨迹,即智能计算成本每年呈数量级下降,且每一代新模型不仅性能更强,运行成本也更低。然而,谷歌上周发布的Gemini 2.5 Flash模型打破了这一趋势——其输入token价格翻...
Read MorePyTorch工程师团队通过分布式检查点(DCP)中的模块化压缩技术,成功将检查点文件体积减少22%。这项突破性优化显著降低了分布式训练过程中的存储占用和带宽消耗。文章详细阐述了该技术的集成步骤和关键设计选择,包...
Read MoreEpoch AI最新研究显示,人工智能领域正经历前所未有的计算规模扩张。2024年全球已追踪到201个计算量超过10²³ FLOPs的AI大模型,较2017年仅有的2个实现指数级增长。尤其值得注意的是,以GPT-4为代表的顶尖模型已突破1...
Read MoreSentence Transformers最新升级引入对稀疏嵌入模型训练的支持,这一技术突破特别适用于混合搜索和重排序场景。该博客详细解析了模型的核心组件与训练步骤,并重点介绍了基于SPLADE架构的现成模型。稀疏编码技术通过...
Read More一项突破性研究展示了小模型通过创新训练方法战胜巨型模型的可能。日本Sakana.AI团队开发的"教师模型"采用全新范式——这些模型不需要自行解决问题,而是被直接提供问题和正确答案,专注于生成清晰易懂的解决方案解释...
Read MoreTreeRL是一种创新的语言模型训练方法,通过结合on-policy树搜索和中间监督机制,实现了无需单独奖励模型的LLM训练。这一技术突破来自最新arXiv论文,相比传统的ChainRL方法,TreeRL在数学推理和代码生成等复杂任务上...
Read More一项突破性研究通过对比模型在随机数据(无法泛化)和真实文本上的训练表现,开发出区分记忆与泛化的新方法。研究发现,模型会先记忆训练数据直至容量饱和,随后转向学习通用模式。以GPT类Transformer为例,每个参数...
Read MoreMeta研究团队最新提出的零样本嫁接(zero-shot grafting)方法,通过从大型语言模型(LLM)的浅层中提取小型代理模型来训练视觉编码器,实现了视觉语言模型(VLM)训练成本降低约45%的突破。该技术不仅显著降低了计...
Read More