近日,首个基于Muon优化器训练的大规模模型Moonlight 16B在GitHub上正式发布。该模型经过5.7万亿个token的训练,架构与DeepSeek v3高度相似。Muon优化器的引入为大规模模型的训练提供了新的可能性,显著提升了训练效...
Read More近日,一项名为Model-Guidance(MG)的技术在扩散模型训练领域取得了突破性进展。该技术通过引入后验概率优化目标,显著提升了扩散模型的训练速度和推理效率。实验结果显示,采用MG技术的扩散模型在ImageNet 256基准...
Read More近日,一项创新的研究展示了使用3D Gaussian Splats渲染的逼真环境来训练端到端驾驶强化学习(RL)模型的潜力。该研究通过构建高度真实的虚拟驾驶场景,显著提升了模型的训练效果。实验结果表明,与传统方法相比,采...
Read MoreAlphaProof自成立以来,一直致力于技术创新与突破。在近期发布的年度技术精选中,AlphaProof回顾了过去一年内最具代表性的技术成就。从人工智能领域的LLM(大型语言模型)到LoRA(低秩适应)技术,AlphaProof在多个...
Read More研究人员提出了针对大型语言模型(LLMs)的补丁级别训练,以提高训练效率。补丁级别训练是一种新的技术,目的是优化大型语言模型的处理能力。这种方法通过在训练过程中引入更精细的补丁级别,提高了模型的训练效率,...
Read MoreReaLHF是一个创新的系统,通过在训练过程中动态重新分配参数并优化并行化,提升了人类反馈的强化学习(RLHF)的效率。这一技术的主要特点在于,它可以根据训练的实际需求,灵活调整系统参数和并行化优化策略,从而实...
Read MoreReaLHF是一种全新的系统,它通过在训练过程中动态地重新分配参数和优化并行化,以提高来自人类反馈的强化学习(RLHF)的效率。ReaLHF通过创新的技术手段,实现了动态参数分配和并行化优化,从而达到了提高训练效率的...
Read MoremuP 是一种被所有前沿模型实验室广泛使用的强大工具,用于将小模型上调优的超参数转移到更大、更昂贵的训练任务中。本文探讨了如何将这种技术应用于稀疏模型,从而显著提升训练性能,同时降低计算成本。通过muP,研...
Read More