模型训练的相关内容 - 漫话开发者

2023-11-22 talkingdev

论文：流行公共模型可能没有在测试集上训练

一种深入研究训练语言模型所使用的数据的方法。研究结果表明，许多闭源模型可能没有在流行的基准测试上进行训练。

2023-11-15 talkingdev

本文介绍了一种名为FinGPT的语言模型，该模型是在芬兰语上进行训练的，研究人员发现通过使用一些技巧，数据重复可以产生极为平滑的损失曲线。这可能是解决互联网上语言数据不足问题的一种简单方法。

2023-11-13 talkingdev

据外媒报道，OpenAI近日宣布启动数据伙伴计划，旨在与合作伙伴共同构建开放和私有的AI训练数据集。这个计划的启动也许意味着OpenAI即将用尽其下一轮模型训练的代币。OpenAI表示，他们需要大量的数据来训练AI模型，但...

2023-11-09 talkingdev

PixArt是一种新的文本到图像模型，它使用T5文本编码、交叉注意力和扩散变压器，以比可比模型低得多的计算成本取得了出色的结果。这种新模型使用Transformer扩散模型，可以比使用UNet模型训练快90%。PixArt模型的训练...

2023-11-03 talkingdev

最近，一家开发团队发布了一个名为“LLM Toolkit”的开源Python工具包，用于构建基于RAG的语言模型生成应用程序。它提供了快速的RAG微调、模型训练和服务脚本，同时支持多种文本数据输入和输出格式。该工具包的代码已...

2023-11-01 talkingdev

近期，研究人员深入探究了多模态大型语言模型（MLLMs）中使用的视觉编码器，并发现CLIP和DINO模型中的某些特征特别适合于详细的视觉任务。他们随后引入了COMM，一种结合了两种模型优点的策略。COMM能够显著提高LLMs...

2023-10-31 talkingdev

MosaicML发布了一篇关于使用AMD GPU进行大型语言模型训练的文章。该公司在本文中介绍了他们的最新研究结果，使用AMD Radeon Instinct MI100 GPU对GPT-2、GPT-3和T5等大型语言模型进行了训练。结果显示，使用AMD GPU...

2023-10-25 talkingdev

芝加哥大学的研究人员开发了一种工具，让艺术家可以给他们的艺术作品添加不可见的变化，这会导致AI模型训练失败。这个工具旨在防止AI公司未经许可使用艺术家的作品。这个叫Nightshade的工具将被集成到Glaze中，Glaze...