预训练的相关内容 - 漫话开发者

2025-07-09 talkingdev

AI2发布全开源语言模型OLMo 2系列，32B版本超越GPT-3.5 Turbo

艾伦人工智能研究所（AI2）近日推出OLMo 2全开源语言模型家族，标志着大模型开源生态取得重大突破。该系列包含32B、13B、7B和1B四种参数规模，其中旗舰型号OLMo 2 32B成为首个在主流基准测试中同时超越GPT-3.5 Turbo...

2025-07-03 talkingdev

PyTorch工程师团队通过分布式检查点（DCP）中的模块化压缩技术，成功将检查点文件体积减少22%。这项突破性优化显著降低了分布式训练过程中的存储占用和带宽消耗。文章详细阐述了该技术的集成步骤和关键设计选择，包...

2025-06-25 talkingdev

NVIDIA实验室最新发布的PS3技术，通过选择性编码（selective encoding）实现了高达4K分辨率的视觉预训练，为VILA-HD模型提供了技术基础。这一突破显著提升了计算机视觉领域的高分辨率数据处理能力，解决了传统方法在...

2025-06-24 talkingdev

最新发表于arXiv的研究表明，通过在训练前随机剪除固定比例的权重参数，稀疏深度强化学习(DRL)网络展现出显著的参数效率优势。该方法不仅减少了模型复杂度，还成功规避了传统训练过程中常见的优化陷阱。这种一次性剪...

2025-06-11 talkingdev

强化学习预训练（Reinforcement Pre-Training, RPT）作为大语言模型（LLM）与强化学习（RL）协同进化的前沿技术，提出了一种革命性的规模化训练范式。该技术通过创新性地利用海量文本数据进行通用强化学习预训练，在...

2025-06-02 talkingdev

近日，Kiln公司发布了一篇关于大型语言模型(LLM)微调的深度指南，引发了开发者社区的广泛讨论。文章详细探讨了在什么情况下需要对预训练的大型语言模型进行微调，以及如何开始这一过程的技术细节。随着ChatGPT等大模...

2025-05-23 talkingdev

字节跳动最新发布的开源多模态基础模型BAGEL在技术领域引发广泛关注。该模型原生支持多模态理解与生成任务，在开源统一模型中表现优异。BAGEL展现出先进的跨模态推理能力，包括图像编辑、3D场景操作和世界导航等复杂...

2025-05-21 talkingdev

KumoRFM是一种预训练的关系型基础模型，其设计初衷是能够在任何数据库和预测任务上工作，而无需进行特定任务的训练。这一技术的突破性在于其通用性和适应性，能够显著降低企业在不同数据场景下部署AI模型的复杂性和...