Red Pajama v2已发布。它比用于训练GPT-4的数据集大2.5倍。它包含5种语言的多语言数据,并具有令人印象深刻的广度。重要的是,已经完成了许多去重工作和一些启发式过滤工作,没有代码数据。
Read More虽然有许多开放数据集,但能够训练前沿模型的规模却少之又少。艾伦人工智能研究所的Dolma数据集就致力于这一目标,希望能够使研究者能够在大规模上研究数据效应。这一数据集的发布,不仅为研究者提供了更高质量,更...
Read More一个名为“Pick-a-Pic”的网络应用程序被创建,让人们生成图像并分享他们的喜好,从而形成了一个大型的开放数据集,用于训练一个智能评分系统PickScore。PickScore非常擅长预测人们的喜好,并且在评估文本到图像模型方...
Read More