语言模型训练的相关内容 - 漫话开发者

2024-02-05 talkingdev

AI2发布全面开放的开放语言模型OLMo

AI2发布了一个完全开放的语言模型训练框架，名为OLMo。该模型提供全面的资源，包括完整的训练数据、模型权重、训练和评估代码、每个模型超过500个检查点，以及未来的微调代码，所有这些都遵循Apache 2.0许可证。这些...

2024-02-01 talkingdev

在训练语言模型时，一个挑战是为任务找到足够多样化的数据集。更难的是，将这些数据可视化。这个很酷的工具使用快速聚类和主题建模，使得可以探索数据，以改善过滤和整体质量。

2024-01-26 talkingdev

研究人员探索了一种名为异步Local-SGD的新的语言模型训练方法。这种方法是联邦平均的一种变体。

2023-12-15 talkingdev

HyperRouter方法提高LLM训练效率。该方法通过动态调整路由器参数，进一步提高了大型语言模型训练的效率。

2023-11-15 talkingdev

本文介绍了一种名为FinGPT的语言模型，该模型是在芬兰语上进行训练的，研究人员发现通过使用一些技巧，数据重复可以产生极为平滑的损失曲线。这可能是解决互联网上语言数据不足问题的一种简单方法。

2023-10-31 talkingdev

MosaicML发布了一篇关于使用AMD GPU进行大型语言模型训练的文章。该公司在本文中介绍了他们的最新研究结果，使用AMD Radeon Instinct MI100 GPU对GPT-2、GPT-3和T5等大型语言模型进行了训练。结果显示，使用AMD GPU...

2023-10-17 talkingdev

Libgen是许多封闭模型中的数据集。虽然这个数据集的商业使用合法性存在争议，但研究人员仍在使用它来更好地了解语言模型训练数据质量。这个开源的GitHub代码库旨在将Libgen转换为txt文本文档的形式，以便更方便地进...

2023-09-19 talkingdev

通常情况下，语言模型的输入和输出嵌入层是捆绑在一起的。然而，如果您将输入嵌入与模型内部的其他嵌入捆绑在一起，并使用对比损失，您可以在实际运行时间和最终基准准确度上获得显著改善的性能。这种方法的关键在于...

2023-06-21 talkingdev

这项研究介绍了LOw-Memory Optimization（LOMO），这是一种旨在显著减少大型语言模型（LLM）训练所需资源的优化器，目前这一过程需要大量的GPU资源。LOMO的创新方法使得只需使用一台具有8个RTX 3090 GPU（每个具有24...

2023-06-19 talkingdev

本文讨论了几种加速大型语言模型（LLM）训练和推理的技术，以使用高达100K个输入令牌的大上下文窗口。这些技术包括：ALiBi位置嵌入，稀疏注意力，闪电注意力，多查询注意力，条件计算以及使用80GB的A100 GPU。