多模态数据的相关内容 - 漫话开发者

2025-02-27 talkingdev

微软发布全新Phi模型，专为多模态处理优化

微软近日发布了两款全新的开源语言模型Phi-4-mini和Phi-4-multimodal，这两款模型在硬件效率和多模态处理方面表现出色。其中，Phi-4-mini拥有38亿参数，专注于文本任务；而Phi-4-multimodal则具备56亿参数，能够处理...

2025-01-24 talkingdev

LOKI 是一个用于评估视觉语言模型（VLMs）在检测新颖和具有挑战性项目方面表现的合成基准测试工具。该基准测试通过生成复杂的多模态数据，帮助研究人员更好地理解模型在处理未知或复杂场景时的能力。LOKI 的设计旨在...

2025-01-22 talkingdev

近日，UniAct作为一种全新的Embodied Foundation Model框架正式亮相，其独特之处在于能够在Universal Action Space中高效运作。这一技术的推出标志着人工智能在动作空间建模领域迈出了重要一步。UniAct通过整合多模...

2024-07-25 talkingdev

研究人员宣布了一个新的数据集，其中包含了一个拥有1万亿令牌的多模态数据集。该数据集包括图像、音频和文本数据，并可用于训练人工智能算法。通过使用这个数据集，研究人员可以更好地理解人类语言和视觉系统的工作...

2024-04-03 talkingdev

近期，GitHub上出现了一个名为Chug的新型数据集加载器项目。Chug专注于处理文本和图像任务，提供了强大且高效的多模态数据加载能力。该工具的出现，对于从事机器学习和人工智能领域的开发者来说，无疑是一个极大的助...

2024-02-09 talkingdev

MobileVLM V2是一系列为移动设备量身打造的先进视觉语言模型，通过创新的架构展示了显著的性能提升。新的MobileVLM V2拥有更快的推理速度，更高的准确性和更广泛的应用场景。MobileVLM V2不仅支持图像和文本之间的交...

2024-01-30 talkingdev

该项目提出了一种新颖的增强Transformer的方法，使用来自不同模态的无关数据，例如使用音频数据来改善图像模型。多模式路径独特地连接了两种不同模态的Transformer，使目标模态能够从另一种模态的优势中受益。

2023-09-22 talkingdev

这项研究介绍了AV-SUPERB，这是一个新的基准测试，用于测试训练模型在各种任务中对声音和视觉数据的理解程度。AV-SUPERB的目标是推动音频和视觉共同理解的发展，并为未来的研究提供一个统一的平台。这项研究突出了模...