漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-07-03 talkingdev

AI大模型训练成本突破千万美元级 2024年全球已追踪201个超大规模模型

Epoch AI最新研究显示,人工智能领域正经历前所未有的计算规模扩张。2024年全球已追踪到201个计算量超过10²³ FLOPs的AI大模型,较2017年仅有的2个实现指数级增长。尤其值得注意的是,以GPT-4为代表的顶尖模型已突破1...

Read More
2025-06-03 talkingdev

[论文推荐]语言模型究竟记住了多少?揭秘记忆与泛化的边界

一项突破性研究通过对比模型在随机数据(无法泛化)和真实文本上的训练表现,开发出区分记忆与泛化的新方法。研究发现,模型会先记忆训练数据直至容量饱和,随后转向学习通用模式。以GPT类Transformer为例,每个参数...

Read More
2025-04-18 talkingdev

Hugging Face发布SIFT-50M语音指令微调数据集,支持多语言语音文本大模型训练

Hugging Face平台最新发布的SIFT-50M(Speech Instruction Fine-Tuning)数据集,是一个包含5000万样本的大规模语音指令微调数据集,专为语音-文本大语言模型(LLMs)的指令微调和预训练而设计。该数据集基于公开可...

Read More
2023-10-19 talkingdev

论文:用小模型研究大模型,研究人员通过小模型验证大模型训练中的不稳定性

大规模训练中的不稳定性对于大多数研究人员来说很难复制。一项新论文展示了如何在小模型中重现这些不稳定性,并验证了许多常见的修复方法在这些小模型上同样有效。该论文的作者认为,这样做有助于提高大规模训练的可...

Read More