分布式训练的相关内容 - 漫话开发者

2025-05-21 talkingdev

[论文推荐]DeepSeek-V3训练内幕：揭秘硬件-模型协同设计突破性实践

DeepSeek研究团队以DeepSeek-V3为案例，分享了大型语言模型（LLM）训练中的硬件-模型协同设计创新成果。该研究通过多头部潜在注意力机制（Multi-head Latent Attention）、专家混合系统（Mixture of Experts）、FP8...

2025-05-16 talkingdev

Nous Research近期推出的Psyche网络是一个基于Solana区块链的分布式训练系统，该系统允许拥有兼容硬件的用户自愿贡献其GPU资源用于AI模型训练。该项目的首个计划"Consilience"旨在利用20万亿个token训练一个拥有400...

2025-05-05 talkingdev

GitHub开源项目TScale提出了一种创新性的分布式训练解决方案，允许开发者在消费级GPU集群上高效运行大规模模型训练。该项目通过优化通信协议和资源调度算法，显著降低了分布式训练的硬件门槛，使中小型研究团队也能...

2025-05-02 talkingdev

Fed-SB研究团队在arXiv最新论文中提出了一种突破性的联邦学习框架LoRA-SB，该技术通过低秩自适应(Low-Rank Adaptation, LoRA)方法实现大型语言模型(LLM)的高效分布式微调。这一创新方案通过参数高效微调(PEFT)技术，...

2025-04-18 talkingdev

微软DeepSpeed团队在GitHub开源了DeepCompile项目，通过引入编译技术显著提升分布式训练性能。该项目针对训练过程中的瓶颈操作进行深度优化，采用改进版的torch compile实现算子融合与代码生成，实测可使关键操作获...

2025-04-17 talkingdev

人工智能研究机构Prime Intellect近日取得重大突破，成功通过完全分布式的方式训练了一个参数量高达320亿（32B）的神经网络模型，并创新性地结合强化学习技术提升模型的推理能力。值得关注的是，该团队已将其核心训...

2025-03-17 talkingdev

DeepMind近日发布了一篇详细介绍DiLoCo跨数据中心训练算法扩展定律的论文。DiLoCo是一种强大的训练算法，能够在全球范围内同步梯度，确保模型训练的稳定性。该算法通过在多个数据中心之间进行分布式训练，有效提升了...

2025-03-03 talkingdev

近日，分布式计算公司Prime Intellect宣布成功完成1500万美元的融资。此次融资将用于进一步推动其分布式训练方案的发展。Prime Intellect致力于通过分布式计算技术优化大规模数据处理和模型训练的效率，其独特的分布...