开放数据集的相关内容 - 漫话开发者

2023-11-08 talkingdev

30T多语言开放数据集发布

Red Pajama v2已发布。它比用于训练GPT-4的数据集大2.5倍。它包含5种语言的多语言数据，并具有令人印象深刻的广度。重要的是，已经完成了许多去重工作和一些启发式过滤工作，没有代码数据。

虽然有许多开放数据集，但能够训练前沿模型的规模却少之又少。艾伦人工智能研究所的Dolma数据集就致力于这一目标，希望能够使研究者能够在大规模上研究数据效应。这一数据集的发布，不仅为研究者提供了更高质量，更...

一个名为“Pick-a-Pic”的网络应用程序被创建，让人们生成图像并分享他们的喜好，从而形成了一个大型的开放数据集，用于训练一个智能评分系统PickScore。PickScore非常擅长预测人们的喜好，并且在评估文本到图像模型方...