数据训练的相关内容 - 漫话开发者

2024-05-10 talkingdev

Buzz预训练数据集发布，更准确地理解和预测人类的行为和喜好

Buzz是一个创新型的数据集，它在预训练中融合了偏好数据。该数据集的研究者们还发布了几个利用这些数据训练的模型。他们发现，这些模型在许多人类偏好任务上表现出色。Buzz数据集的出现，无疑为人工智能研究提供了新...

2024-04-15 talkingdev

近期，科技界发起了一项名为BabyLM的挑战，旨在推动研究人员和开发者在极度有限的数据条件下，训练出性能卓越的文本和视觉模型。这一挑战的核心理念是模仿人类婴儿在成长初期所接触到的数据量，大约为1000万个token...

2024-02-21 talkingdev

近日，一项名为ZeroSwot的新方法被提出，通过独特的技术，成功突破了语音和文本之间的差异以及数据缺乏等难题，实现了提高语音翻译准确度的目标。具体来说，ZeroSwot通过使用语音识别数据训练语音编码器，然后将其与...

2024-02-08 talkingdev

由于LAION等大规模数据集的删除，以及版权问题，使得训练大规模图像模型变得具有挑战性。但是，这项工作表明，使用3000万个全合成的图像可以训练出强大的CLIP模型。

2024-02-02 talkingdev

FireLlava是一个新的开源视觉模型，经过数据训练，可以用于商业任务。它与原始Llava的性能相当，但还没有达到Llava 1.5的水平。

2024-01-22 talkingdev

以往认为难问题需要难数据，但这些数据很难标记且带噪音。这项研究表明，对相关但易处理的数据进行微调训练，可以极大提高模型解决难问题的能力。这是支持微调训练是引出知识而非添加知识的又一数据点。本研究成果对...

2023-11-29 talkingdev

伯克利的一组研究人员使用合成偏好数据训练了一个新的最先进的7B参数模型。本文讨论了训练奖励模型的新挑战（例如，示例在列表中的位置会改变其排名）以及他们如何克服这些挑战。结果模型可与经过训练的奖励模型一起...

2023-11-17 talkingdev

阿里云近日发布了Qwen Audio模型，该模型是一款通用的音频转语言模型，能够用于音乐、语音等多种任务。该模型基于深度学习技术，经过大量数据训练，能够准确地识别语音，并将其转化为对应的语言文字，为用户提供更加...