Hugging Face与Yaak合作推出了L2D数据集,这是目前最大的开源多模态数据集,专为汽车人工智能(AI)领域设计。该数据集包含了从驾驶学校收集的专家和学生驾驶策略,并通过自然语言指令增强了空间智能模型的能力。这...
Read More近日,一个百万规模的文本到视频生成数据集正式发布,该数据集旨在为AI模型的训练提供丰富的视频素材,同时尽量减少与现有视频数据集的重叠。该数据集通过YouTube创作者官方API收集,所有视频均采用CC许可,涵盖了用...
Read More训练语言模型需要数万亿高质量的标记数据。关于这些数据集构建的信息大多未公开。然而,FineWeb团队在一篇精彩的博文中讨论了不同的数据集清理和过滤策略。文章的作者们发布了许多顶级的数据集,用于语言模型训练。...
Read MoreBuzz是一个创新型的数据集,它在预训练中融合了偏好数据。该数据集的研究者们还发布了几个利用这些数据训练的模型。他们发现,这些模型在许多人类偏好任务上表现出色。Buzz数据集的出现,无疑为人工智能研究提供了新...
Read More近日,一个庞大的工业文档OCR数据集正式发布,该数据集包含了2600万页的高质量PDF文档,总计约180亿个标记。这些文档涵盖了工业领域的广泛内容,包括机械设计、电气工程、自动化控制等多个方面。该数据集的发布,将...
Read MoreWebLinx是一个包含10万个基于对话格式的网络交互的数据集。它的发布是为了改善基于语言模型导向的网络导航的研究。该数据集包括对话、URL、HTML和屏幕截图。它由Carnegie Mellon大学的研究人员发布,已经开源。这个...
Read MoreM3DBench是一个全新的广泛数据集,旨在改变AI的3D理解,填补多模态语言模型研究中的差距。它包括超过320,000个不同的指令响应对,集成了文本、图像和3D对象,为AI执行更广泛的现实3D任务铺平了道路。
Read More