数据质量的相关内容 - 漫话开发者

2024-04-03 talkingdev

HuggingFace团队揭示大规模合成数据在预训练模型中的应用

HuggingFace团队最近展示了如何为语言模型的预训练阶段生成、筛选、合成和扩展大量的合成数据。这一过程不仅涉及数据的生成，还包括对数据进行精心的筛选和过滤，以确保其在模型训练中的有效性和准确性。通过这种方...

2024-02-28 talkingdev

由数据质量研究专家创立的 DatalogyAI 公司最近获得了1100万美元的融资。该公司旨在让数据集的可扩展筛选变得更加简单。

2024-02-13 talkingdev

本文主要讨论人类在数据生成中的作用。人类可以收集偏好数据、进行注释标记等，以提高数据的质量。随着机器学习和人工智能的发展，高质量的人类数据越来越受到重视。本文还探讨了如何让人类数据更加准确、可靠，同时...

2023-10-23 talkingdev

DALLE-3图像生成模型的质量提升的主要驱动力之一是改进后的数据质量。通过使用内部模型进行标题上采样来实现。这里提供了一个使用强大的开源模型进行实现的GitHub开源库。

2023-10-17 talkingdev

Libgen是许多封闭模型中的数据集。虽然这个数据集的商业使用合法性存在争议，但研究人员仍在使用它来更好地了解语言模型训练数据质量。这个开源的GitHub代码库旨在将Libgen转换为txt文本文档的形式，以便更方便地进...

2023-06-21 talkingdev

AI模型的训练数据质量对于获得良好性能非常重要。在代码模型中，数据去重往往非常重要。对于文本而言，目前尚不清楚它是否同样重要。然而，无论如何，本博客介绍了用于去重文本样式数据的技术。