多模态的相关内容 - 漫话开发者

2026-05-25 talkingdev

Netflix如何利用多模态AI革新视频搜索：从海量素材到精准定位

Netflix正借助多模态AI技术，彻底改变其视频搜索与内容管理方式。平台允许编辑人员通过运行多个专门的AI模型（包括角色识别、场景分类、对话分析和物体检测），对数以千计的原始视频素材进行高效检索。其核心技术架...

2026-05-21 talkingdev

字节跳动近日在GitHub上开源了一款名为Lance的原生统一多模态模型，以其仅3B（30亿）激活参数的设计，在AI领域引起了广泛关注。该模型打破了传统多模态模型需要为不同任务（如图像理解、视频生成、图像编辑等）分别...

2026-05-19 talkingdev

阿里巴巴通义千问团队近日在Arena平台上发布了Qwen3.7预览版，涵盖文本和视觉两大核心能力。据悉，Qwen3.7 Max Preview在文本竞技场中位列第13名，而Qwen3.7 Plus Preview则在视觉竞技场中排名第16，显示出阿里在大...

2026-05-12 talkingdev

Thinking Machines Lab 近日发布了一项名为“交互模型”的研究预览，旨在通过音频、视频和文本三种模态，实现人类与人工智能之间的实时协作。该模型采用从头训练的“多流架构”，能够持续处理与交换多模态信息，彻底打破...

2026-05-08 talkingdev

OpenAI近日在API中正式推出了一系列全新的实时音频模型，标志着语音交互技术迈入了一个全新阶段。该系列包括三款核心模型：GPT-Realtime-2，专注于增强对话式推理能力，能够实现更自然、更具逻辑性的实时语音对话；G...

2026-05-01 talkingdev

智谱AI团队发布的最新研究成果GLM-5V-Turbo，在人工智能领域迈出了关键一步。该模型的核心创新在于将多模态感知能力直接内嵌到模型的推理过程和工具使用中，而非作为独立的预处理步骤。这意味着模型能够同时处理并理...

2026-04-29 talkingdev

NVIDIA日前发布了名为Nemotron 3 Nano Omni的全新多模态模型，标志着其在长上下文多模态智能领域的重要进展。该模型专为文档、音频和视频分析设计，在MMlongbench-Doc和VoiceBench等多个权威基准测试中均取得了业界...

2026-04-27 talkingdev

来自arxiv的最新研究提出了一种名为Vision Banana的通用视觉模型，该模型的核心创新在于将传统的视觉感知任务重新表述为图像生成问题。通过指令微调（instruction-tuning）的图像生成模型，Vision Banana能够在多种...