预训练数据集的相关内容 - 漫话开发者

2026-01-08 talkingdev

开源|Hugging Face发布FinePDFs：从PDF中解放3万亿高质量训练令牌

在开源人工智能社区中，PDF文档长期以来被视为一座未被充分挖掘的高质量数据金矿。近日，Hugging Face团队正式发布了其开创性的预训练数据集项目——FinePDFs，成功从海量PDF文档中提取并构建了一个规模超过3万亿令牌...

2024-05-14 talkingdev

WebLlama是一个设计精良的模型，能够浏览网页并据此回答相关问题。这种模型可用于生成高质量的预训练数据集，或者执行需要从网页查询信息的研究。WebLlama的目标是通过模型的训练，使其能够更好地理解和处理网络信息...

2024-05-10 talkingdev

Buzz是一个创新型的数据集，它在预训练中融合了偏好数据。该数据集的研究者们还发布了几个利用这些数据训练的模型。他们发现，这些模型在许多人类偏好任务上表现出色。Buzz数据集的出现，无疑为人工智能研究提供了新...

2024-01-11 talkingdev

Mixtral论文已经发布。该论文没有讨论预训练数据集。大部分的内容都是众所周知的，但是在专家路由评估的讨论中有一个有趣的新见解。