数据集发布的相关内容 - 漫话开发者

2025-11-11 talkingdev

开源|Egocentric-10K：全球最大规模工业操作视频数据集发布

由builddotai团队在Hugging Face平台开源的Egocentric-10K数据集，标志着工业视觉与机器人学习领域取得重大突破。该数据集包含10,000小时以第一人称视角采集的工业操作视频，涵盖192,900个视频片段，真实记录了2,138...

2025-03-12 talkingdev

Hugging Face与Yaak合作推出了L2D数据集，这是目前最大的开源多模态数据集，专为汽车人工智能（AI）领域设计。该数据集包含了从驾驶学校收集的专家和学生驾驶策略，并通过自然语言指令增强了空间智能模型的能力。这...

2025-03-05 talkingdev

近日，一个百万规模的文本到视频生成数据集正式发布，该数据集旨在为AI模型的训练提供丰富的视频素材，同时尽量减少与现有视频数据集的重叠。该数据集通过YouTube创作者官方API收集，所有视频均采用CC许可，涵盖了用...

2024-06-04 talkingdev

训练语言模型需要数万亿高质量的标记数据。关于这些数据集构建的信息大多未公开。然而，FineWeb团队在一篇精彩的博文中讨论了不同的数据集清理和过滤策略。文章的作者们发布了许多顶级的数据集，用于语言模型训练。...

2024-05-10 talkingdev

Buzz是一个创新型的数据集，它在预训练中融合了偏好数据。该数据集的研究者们还发布了几个利用这些数据训练的模型。他们发现，这些模型在许多人类偏好任务上表现出色。Buzz数据集的出现，无疑为人工智能研究提供了新...

2024-04-03 talkingdev

近日，一个庞大的工业文档OCR数据集正式发布，该数据集包含了2600万页的高质量PDF文档，总计约180亿个标记。这些文档涵盖了工业领域的广泛内容，包括机械设计、电气工程、自动化控制等多个方面。该数据集的发布，将...

2024-02-14 talkingdev

WebLinx是一个包含10万个基于对话格式的网络交互的数据集。它的发布是为了改善基于语言模型导向的网络导航的研究。该数据集包括对话、URL、HTML和屏幕截图。它由Carnegie Mellon大学的研究人员发布，已经开源。这个...

2024-01-26 talkingdev

Song Describer数据集包含1000多个人工编写的音乐记录描述，该数据集可帮助评估音乐与语言模型，例如音乐字幕和文本转音乐生成。