漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-10 talkingdev

Buzz预训练数据集发布,更准确地理解和预测人类的行为和喜好

Buzz是一个创新型的数据集,它在预训练中融合了偏好数据。该数据集的研究者们还发布了几个利用这些数据训练的模型。他们发现,这些模型在许多人类偏好任务上表现出色。Buzz数据集的出现,无疑为人工智能研究提供了新...

Read More
2024-05-10 talkingdev

Image In Words数据集,图像与文字配对的新型标签方法

近日,一种新型的标签方法被研究者利用在了图片和文字的配对上,这种方法运用了两次的VLMs(视觉语言模型)扫描,产生了极为详细的图片和文字配对数据。这些配对数据的标题比以往的任何数据集都要详细,能够帮助训练...

Read More
2024-05-06 talkingdev

谷歌发布包含1.5万张极致详细全标注的图像数据集

谷歌近日发布了一份新的数据集,包含了1.5万张极其详细和全面标注的图像。这个数据集的特点在于其精确度和全面性,每张图像都进行了详尽的标注,提供了丰富且精确的数据资源,为研究人员提供了强大的工具,可以用于...

Read More
2024-05-06 talkingdev

Bonito-从非结构化数据集生成合成指令数据集

Bonito是一个模型和工具包,设计用于接收非结构化文本作为输入,然后创建特定类型的指令数据集,如问答、指令和摘要。该工具包的主要目标是提取出文本的主要信息,然后根据这些信息生成一系列的用户指令,这些指令可...

Read More
2024-05-06 talkingdev

Mantis-训练视觉模型新进展,单图和多图指令调整

最近,科技领域出现了一种全新的数据集和训练视觉语言模型,它能够在多图之间实现更高质量的指令跟踪。这种新的训练模型采用先进的视觉语言处理技术,可以识别并理解图片中的信息,并根据这些信息生成相应的指令。这...

Read More
2024-05-03 talkingdev

InstructDr新模型开源:开创视觉文档理解纪元

近日,GitHub Repo发布了一款名为InstructDr的模型,该模型的设计目标是在各种视觉文档理解任务中表现优异,如问题回答和信息提取等。InstructDr能结合文档图片和大型语言模型,适应新的任务和数据集,其性能超过了...

Read More
2024-04-29 talkingdev

TrackGPT:基于指令技术的物体追踪进化

TrackGPT集成了大规模视觉-语言模型的能力,以变革物体追踪的方式。TrackGPT能够理解用于追踪的隐含指令,从而使过程更加流畅,提升性能。这一点在新的InsTrack基准和其他具有挑战性的数据集上表现出了令人印象深刻...

Read More
2024-04-28 talkingdev

WRV2开源,利用冗余感知技术进行视频修复

研究人员已经引入了一种新颖的数据集和方法,用于改善视频中的线条移除问题,这是电影和电视节目中常见的视觉效果挑战。他们设计的冗余感知技术能够通过分析视频中的多余信息,找出重复的模式和结构,从而实现更精准...

Read More
2024-04-16 talkingdev

MPPE-对话状态跟踪方法助力零样本学习模型

研究人员近日开发了一种名为Mixture of Prefix Prompt Experts(MPPE)的新技术,旨在增强零样本学习模型中的对话状态跟踪能力。该方法通过转移知识至未见领域,而无需新的数据集注释。这一新技术将有助于提升机器对...

Read More
2024-04-15 talkingdev

Gemma和Siglip推出VLLM,利用LAION和LLaVA数据集进行训练

Gemma和Siglip最近发布了一款小型但功能强大的视觉语言模型(VLLM),该模型专为理解和生成与图像相关联的语言而设计。VLLM利用大规模的LAION和LLaVA数据集进行训练,这些数据集包含了大量的图像和相关文本信息,使...

Read More
  1. Prev Page
  2. 7
  3. 8
  4. 9
  5. Next Page