MosaicML的相关内容 - 漫话开发者

2023-10-31 talkingdev

AMD发布第二轮训练，为大型语言模型训练提供更强的支持

MosaicML发布了一篇关于使用AMD GPU进行大型语言模型训练的文章。该公司在本文中介绍了他们的最新研究结果，使用AMD Radeon Instinct MI100 GPU对GPT-2、GPT-3和T5等大型语言模型进行了训练。结果显示，使用AMD GPU...

2023-10-27 talkingdev

最受欢迎的扩散模型，如稳定扩散，已经在各种数据上进行了训练，但其中很多数据受到不同的版权限制。MosaicML提出的这种新模型纯粹基于创意共享数据进行训练，其性能与SD2相当，并且只需要训练数据的一小部分。

2023-07-03 talkingdev

这篇文章共享了关于Casetext的深入见解，它是一个花了十年时间才取得成功的一夜爆红案例，这篇文章展示了人工智能的变革性能量以及在机会来临时，必须要抓住机会的重要性。

2023-06-23 talkingdev

MPT是MosaicML推出的一系列语言模型。仅在推出几周内，其7B模型已经被下载了数百万次。这款全新的30B模型是在H100s上进行训练的，具备8000个上下文长度。它经过商业授权，甚至可以进行编码！该模型可以在单个A100上...

2023-06-02 talkingdev

最近MosaicML MPT模型仍然备受欢迎。其中一个重要的贡献是“Storywriter”模型，它可以在上下文中使用高达65k个标记。但是，使用这个模型进行推理非常缓慢。通过添加键/值缓存，我们可以将生成速度提高近10倍。 ## 内...

2023-05-08 talkingdev

MosaicML最近发布了一种新的语言模型，可以处理多达65k个“词”的文本。这意味着该模型可以将整个小说《了不起的盖茨比》放入上下文中，并根据其写出一篇结尾。以下是该技术的三个核心要点： - 传统的语言模型只能在...