计算资源的相关内容 - 漫话开发者

2024-04-10 talkingdev

使用Colab在H100上训练超过20万上下文窗口的新梯度累积卸载技术

Longcontext Alpaca训练技术最近取得了重大突破，通过在H100硬件上使用新的梯度累积卸载技术，成功训练了超过200,000个上下文窗口。这种创新方法使得大规模深度学习模型的训练变得更加高效，显著提高了计算资源的利...

2024-04-08 talkingdev

近期在GitHub上发布的ReFT（Representation Fine-Tuning）项目，为微调语言模型带来了一种新的参数高效方法。与传统的PeFT相比，ReFT在保持强大性能的同时，大大降低了成本。该方法通过精细化调整模型参数，使得在进...

2024-04-05 talkingdev

现代变压器模型在处理数据时，每个数据单元都使用相同的预测计算量，但事实上，不同数据单元的预测难度差异很大。DeepMind的最新研究突破了这一限制，允许模型在生成过程中根据数据单元的难易程度提前退出，从而减少...

2024-04-04 talkingdev

科研团队近期推出了一项名为DiJiang的创新技术，旨在将现有的Transformer模型转化为更精简、更快速的版本，同时避免了重新训练模型所需的巨大成本。DiJiang技术通过优化模型结构，大幅减少了计算资源的消耗，使得Tra...

2024-04-01 talkingdev

在企业中，数据、评估和计算资源对于高性能的人工智能至关重要。评估（evals）可能是组织改进其AI产品的一个关键因素。通过构建针对商业问题的评估体系，企业能够更有效地衡量AI解决方案的性能，并据此进行优化。这...

2024-03-25 talkingdev

Databricks Mosaic团队在语言模型训练领域不断创新。在最近的一篇文章中，他们讨论了用于fp8训练的训练技术栈，以及通过降低精度所带来的一些优势。fp8作为一种新兴的计算精度格式，能够在保持足够精度的同时，大幅...

2024-03-20 talkingdev

本文由前OpenAI科学家撰写，深入探讨了SORA技术及其生成视频的潜在成本。SORA是一种先进的视频生成技术，通过复杂的算法和大量的数据处理，能够创建出高质量的视频内容。文章详细介绍了SORA的工作原理，包括其如何处...

2024-03-18 talkingdev

ScoreHMR公司近日推出了一种新颖的3D人体姿态和形状重建方法。该技术利用扩散模型的强大能力，避免了传统优化技术，采用了得分引导方式将人体模型与图像观测数据对齐。这一创新方法不仅提高了重建的准确性，还大大减...