数据集的相关内容 - 漫话开发者

2023-08-11 talkingdev

多家媒体要求制定AI训练数据新规

近日，多家媒体组织联名发布公开信，呼吁全球立法者考虑制定保护版权的规定，针对用于训练生成性AI模型的数据。他们要求在使用数据进行训练之前，必须对训练数据集进行透明化，并获取权利所有者的同意。公开信还要求...

2023-08-08 talkingdev

本研究引入了一种数据集，用于探究AI是否能像人类一样“看”图像。该数据集主要分为三个组别——Must-Act、Must-Abstain和Uncertain——设计用于测试AI在清晰、不清晰或模糊图像上的决策能力。Must-Act组中的图像是明确的...

2023-08-07 talkingdev

最近，一篇论文的作者们开发出了一种名为“共思”的方法，该方法利用大型语言模型来提高较小的“婴儿级”模型的训练效果。他们通过重新处理GPT-3.5-turbo的数据集，并以RoBERTa的方式训练较小的模型，使得该模型在语言测...

2023-08-03 talkingdev

最近的一项研究介绍了'YOLOBench'，这是一个针对超过550种基于YOLO（You Only Look Once，你只看一次）方法的物体检测模型的性能测评。这些模型在四个独特的数据集和硬件系统上进行了测试。YOLO是一种流行且高效的物...

2023-08-02 talkingdev

为音乐产生人类可读的描述对于大多数系统来说都是一项挑战，甚至对于人类来说也相当困难！然而，凭借一些巧妙的数据采集和标签技术，研究人员成功地收集了一个涵盖各种音乐流派的2.2m字幕数据集。他们在此数据集上训...

2023-08-01 talkingdev

尽管大型语言模型（LLMs）在众多自然语言处理任务中取得了成功，但在交通安全领域却显得力不从心，因为这需要专门的知识。为解决这个问题，研究人员开发了TrafficSafetyGPT，这是一个经过独特数据集微调的LLM模型。...

2023-08-01 talkingdev

这项研究提出了一个新的范式，用于创建大规模、多样化的数据集，以训练AI代理进行视觉导航。在这种新的方法中，我们采用了一种创新的数据生成策略，这种策略能够有效地处理大规模的数据，同时保证数据的多样性和质量...

2023-07-28 talkingdev

近日，已发布超过400万对高质量、经过策划的文本和图像对，用于视觉问题回答。所有这些数据都是由Midjourney合成生成的，因此有人戏称这个数据集为Midjourney蒸馏数据集。这意味着该数据集能够提供丰富的视觉和语言...