计算效率的相关内容 - 漫话开发者

2026-01-06 talkingdev

英伟达黄仁勋宣布Vera Rubin芯片全面投产：训练部分大模型所需芯片数量仅为Blackwell的四分之一

英伟达创始人兼CEO黄仁勋近日宣布，其下一代AI芯片平台Vera Rubin已进入“全面生产”阶段。根据英伟达官方披露的技术信息，Vera Rubin平台在训练特定大型语言模型时，所需芯片数量可大幅减少至当前旗舰Blackwell架构平...

2025-11-29 talkingdev

人工智能公司Prime Intellect正式推出INTELLECT-3模型，这是一个基于强化学习训练、具备1060亿参数的混合专家开源模型。该模型采用创新的MoE架构，通过动态激活专家网络显著提升计算效率，在数学推理、代码生成、科...

2025-11-24 talkingdev

大语言模型（LLM）作为基于Transformer架构的神经网络，通过并行分析完整序列并计算词语间的全局关联性，实现了自然语言处理的突破性进展。在推理过程中，模型首先将输入文本转化为数字化的词元嵌入向量，随后通过Tr...

2025-11-05 talkingdev

当前最强大的开源大语言模型普遍采用自回归解码器架构的Transformer模型，但近年来涌现出多种创新架构。这些模型不仅关注计算效率的提升，更致力于突破性能瓶颈。文本扩散模型通过模拟去噪过程生成连贯文本，在创造...

2025-10-17 talkingdev

来自大规模实验的研究团队发布了名为ScaleRL的创新框架，这是首个针对大型语言模型强化学习计算扩展的系统性研究方法。该研究通过超过40万GPU小时的实验数据，构建了可预测的S型计算-性能曲线，揭示了RL训练中算法改...

2025-10-15 talkingdev

近期发布的表征自编码器（RAE）技术为潜在扩散模型带来重大升级。该技术通过使用DINO、SigLIP或MAE等预训练编码器替代传统变分自编码器（VAE），结合学习型解码器构建高维潜在空间。实验表明，这种新型架构能显著提...

2025-10-12 talkingdev

Meta Superintelligence Labs于arXiv发布编号2509.01092的首篇论文，引发学术社区高度关注。该研究并未延续当前大模型参数规模竞赛的常规路径，而是聚焦于注意力机制的基础架构创新。论文提出了一种名为"动态稀疏注...

2025-10-10 talkingdev

近日，信息检索领域迎来突破性进展——基于生成式模型的上下文排序（ICR）技术实现规模化应用。传统ICR方法通过将任务描述、候选文档和查询直接输入大语言模型（LLM）来识别相关文档，虽效果显著但存在计算效率瓶颈：...