多模态AI的相关内容 - 漫话开发者

2026-07-24 talkingdev

微软发布MAI-Image-2.5-Pro与MAI-Voice-2-Flash：高保真图像生成和超低延迟语音模型正式公开预览

微软正式推出两款全新自研AI模型——MAI-Image-2.5-Pro和MAI-Voice-2-Flash，进一步强化其在多模态生成领域的布局。MAI-Image-2.5-Pro专注于高保真图像生成与编辑，能够根据复杂文本描述生成细节丰富、构图精准的高质...

2026-07-16 talkingdev

人工智能公司Thinking Machines正式发布了其首个开放权重模型Inkling。这是一个参数规模高达9750亿的混合专家（Mixture-of-Experts）Transformer模型，原生支持文本、图像和音频的多模态输入与理解。Inkling最引人注...

2026-06-18 talkingdev

NVIDIA近日宣布其XR AI平台进入公开测试阶段，为增强现实（AR）眼镜和扩展现实（XR）头显开发者提供了一个关键的底层基础设施。该平台是一个开源库，旨在填补当前硬件就绪但缺乏集成本地AI体验的空白。它允许开发者...

2026-05-25 talkingdev

Netflix正借助多模态AI技术，彻底改变其视频搜索与内容管理方式。平台允许编辑人员通过运行多个专门的AI模型（包括角色识别、场景分类、对话分析和物体检测），对数以千计的原始视频素材进行高效检索。其核心技术架...

2026-05-21 talkingdev

字节跳动近日在GitHub上开源了一款名为Lance的原生统一多模态模型，以其仅3B（30亿）激活参数的设计，在AI领域引起了广泛关注。该模型打破了传统多模态模型需要为不同任务（如图像理解、视频生成、图像编辑等）分别...

2026-05-12 talkingdev

Thinking Machines Lab 近日发布了一项名为“交互模型”的研究预览，旨在通过音频、视频和文本三种模态，实现人类与人工智能之间的实时协作。该模型采用从头训练的“多流架构”，能够持续处理与交换多模态信息，彻底打破...

2026-05-01 talkingdev

智谱AI团队发布的最新研究成果GLM-5V-Turbo，在人工智能领域迈出了关键一步。该模型的核心创新在于将多模态感知能力直接内嵌到模型的推理过程和工具使用中，而非作为独立的预处理步骤。这意味着模型能够同时处理并理...

2026-04-29 talkingdev

NVIDIA日前发布了名为Nemotron 3 Nano Omni的全新多模态模型，标志着其在长上下文多模态智能领域的重要进展。该模型专为文档、音频和视频分析设计，在MMlongbench-Doc和VoiceBench等多个权威基准测试中均取得了业界...