模型训练的相关内容 - 漫话开发者

2025-09-17 talkingdev

开源|揭秘月之暗面Kimi K2如何实现万亿参数模型20秒高效RL更新

月之暗面(Moonshot AI)团队在其技术博客中详细披露了Kimi K2模型在强化学习训练领域的重大突破。该团队成功实现了对1万亿参数模型的RL参数更新仅需约20秒，这一突破性进展解决了强化学习端到端训练过程中的关键效率...

2025-09-17 talkingdev

中国互联网巨头腾讯和百度在2025年通过香港离岸人民币债券市场（点心债市场）合计发行33亿美元债券，创下中国科技企业有史以来最大规模的境外债券融资纪录。这一融资行为主要旨在为人工智能基础设施建设和技术研发获...

2025-09-10 talkingdev

CData Foundations 2025虚拟峰会将于9月17日（分析专场）和9月24日（AI专场）重磅登场，聚焦企业数据架构现代化与AI战略部署。本次峰会汇聚Google、AWS、Databricks和ServiceNow等科技巨头的技术专家，分享数据治理...

2025-09-10 talkingdev

随着人工智能技术的快速发展，行业领先的AI公司正将自主训练模型视为战略要务。技术门槛的急剧降低成为关键推动力——模型蒸馏、精细调优和后训练优化等技术手段正以月为单位加速成熟，使得企业自建模型从高成本投入转...

2025-09-06 talkingdev

人工智能公司Anthropic近日同意支付15亿美元，就与图书作者的版权侵权集体诉讼达成和解。这一案件被视为AI训练数据版权争议的标志性事件，涉及生成式AI模型使用受版权保护内容的核心法律问题。和解金额创下同类案件...

2025-09-05 talkingdev

据《金融时报》报道，OpenAI已与美国芯片巨头博通达成合作，双方将共同设计专用于人工智能计算的芯片，并计划于2025年投入生产。OpenAI已承诺投入100亿美元用于芯片订单，这些芯片将完全用于其内部AI模型训练与推理...

2025-08-25 talkingdev

最新研究表明，大语言模型存在系统性偏好短词元的倾向，这一发现对自然语言处理领域具有重要影响。由于短词元拥有更多可能的后续组合方式，模型可能会优先选择这些‘松散词元’，即使它们并非最佳语义选择。该研究进一...

2025-08-24 talkingdev

近日，一项名为《Writing Speed-of-Light Flash Attention for 5090 in CUDA C++》的技术研究引发广泛关注。该研究通过CUDA C++实现了针对5090硬件的光速级Flash Attention算法，显著提升了注意力机制的计算效率。Fl...