多模态模型的相关内容 - 漫话开发者

2026-06-02 talkingdev

视频智能体模型是下一波浪潮 — xAI Grok Imagine 负责人 Ethan He 深度解读

在生成式AI的激烈竞争中，视频生成与世界模型正成为下一个前沿战场。Ethan He，这位曾领导NVIDIA Cosmos世界模型项目的核心人物，在加入xAI后仅用三个月便主导构建了Grok Imagine图像生成系统。在一篇长达98分钟的深...

2026-05-21 talkingdev

字节跳动近日在GitHub上开源了一款名为Lance的原生统一多模态模型，以其仅3B（30亿）激活参数的设计，在AI领域引起了广泛关注。该模型打破了传统多模态模型需要为不同任务（如图像理解、视频生成、图像编辑等）分别...

2026-04-29 talkingdev

NVIDIA日前发布了名为Nemotron 3 Nano Omni的全新多模态模型，标志着其在长上下文多模态智能领域的重要进展。该模型专为文档、音频和视频分析设计，在MMlongbench-Doc和VoiceBench等多个权威基准测试中均取得了业界...

2026-04-20 talkingdev

Anthropic Labs今日正式发布Claude Design，标志着生成式AI在专业视觉创作领域迈出关键一步。该产品基于Claude Opus 4.7多模态视觉模型构建，能够协助用户高效生成设计原型、商业演示文稿、营销单页等视觉内容。其核...

2026-03-19 talkingdev

百度近期在GitHub上开源了其企业级视觉语言模型系列——千帆VL（Qianfan-VL）。该系列模型并非通用型多模态模型的简单变体，而是针对工业场景进行了深度优化和增强的专用模型。其核心设计目标是解决企业级应用中的实际...

2026-03-05 talkingdev

微软近日发布了Phi-4-reasoning-vision-15B，这是一款开源的、权重开放的多模态视觉AI模型。该模型仅包含150亿参数，却在数学、科学、文档及用户界面（UI）推理任务上，达到了与参数量大数倍的模型相当甚至更优的性...

2025-12-24 talkingdev

Meta旗下PyTorch团队正式开源ExecuTorch项目，这是一个专为在移动设备、嵌入式系统和边缘计算节点上高效部署人工智能模型而设计的端到端解决方案。ExecuTorch旨在解决AI模型在资源受限环境中的部署难题，其核心价值...

2025-12-03 talkingdev

人工智能领域迎来重要开源进展。Mistral AI正式发布了其新一代Mistral 3系列模型，该系列包含两大技术路线：一是三款不同规模的密集模型（参数规模分别为140亿、80亿和30亿），二是备受瞩目的Mistral Large 3稀疏混...