模型训练的相关内容 - 漫话开发者

2025-03-14 talkingdev

AnyMoLe：利用视频扩散模型生成任意角色的中间帧运动

在计算机视觉和图形学领域，生成角色的中间帧运动一直是一个具有挑战性的任务，尤其是当涉及个性化角色的动画生成时。传统的动画生成方法需要针对特定角色进行数据收集和模型训练，而新项目AnyMoLe通过引入视频扩散...

2025-03-11 talkingdev

近日，GitHub上发布了一款名为Smalldiffusion的开源工具包，专为扩散模型的训练与采样设计。该工具包以轻量、高效和易读性为核心特点，旨在为研究人员和开发者提供一个简洁且高性能的解决方案。Smalldiffusion不仅优...

2025-03-05 talkingdev

近日，一个百万规模的文本到视频生成数据集正式发布，该数据集旨在为AI模型的训练提供丰富的视频素材，同时尽量减少与现有视频数据集的重叠。该数据集通过YouTube创作者官方API收集，所有视频均采用CC许可，涵盖了用...

2025-03-03 talkingdev

近日，分布式计算公司Prime Intellect宣布成功完成1500万美元的融资。此次融资将用于进一步推动其分布式训练方案的发展。Prime Intellect致力于通过分布式计算技术优化大规模数据处理和模型训练的效率，其独特的分布...

2025-02-25 talkingdev

近日，DeepSeek宣布开源其内部基础设施的一部分，首推MLA（机器学习加速）核心框架FlashMLA。这一开源项目已在GitHub上发布，旨在为开发者提供高效、灵活的机器学习加速工具。FlashMLA通过优化计算资源分配和任务调...

2025-02-24 talkingdev

近日，首个基于Muon优化器训练的大规模模型Moonlight 16B在GitHub上正式发布。该模型经过5.7万亿个token的训练，架构与DeepSeek v3高度相似。Muon优化器的引入为大规模模型的训练提供了新的可能性，显著提升了训练效...

2025-02-22 talkingdev

Google Titans模型是Google最新推出的一种内存驱动AI架构，旨在通过高效的内存管理和数据处理能力，提升AI模型的性能和效率。该模型的核心在于其独特的内存驱动设计，能够显著减少数据访问延迟，从而加速模型训练和...

2025-02-22 talkingdev

近日，技术社区对SWE-bench数据集的使用提出了严重关切。该数据集被广泛用于评估软件工程领域的模型性能，但近期发现其存在多个关键问题，可能影响研究结果的准确性和可靠性。首先，数据集中部分样本的标注存在偏差...