Qwen3.7-Plus发布：统一视觉与语言的通用多模态智能体模型

talkingdev • 2026-06-02

145834 views

阿里巴巴通义千问团队近日发布了其最新的多模态智能体模型Qwen3.7-Plus，标志着通用人工智能在感知与行动融合层面迈出了重要一步。该模型将视觉识别与语言理解能力深度融合，构建了一个单一、通用的多模态智能体基础框架。Qwen3.7-Plus最显著的创新在于其能够以多模态交互混合智能体的形式运行，在同一个智能体循环中无缝整合图形用户界面（GUI）与命令行界面（CLI）的交互。这意味着该模型不仅能通过对话理解用户意图，还能直接操作界面元素或执行系统命令，从而解决更复杂的、跨环境的任务，例如自动完成一个需要同时检索信息、填写表单和运行脚本的完整工作流。此外，Qwen3.7-Plus展现出极高的跨框架与跨平台兼容性，能够在不同的主流AI开发框架和模型架构上保持稳定且优异的性能表现。目前，该模型已通过阿里云Model Studio平台对外开放，开发者可以快速接入并构建自己的多模态智能体应用，这对于推动自动化、智能客服和复杂任务编排等领域的发展具有重要的行业影响力。

核心要点

Qwen3.7-Plus将视觉与语言能力融合，构建了单一、通用的多模态智能体基础模型，突破了传统单一模态的局限。
该模型能在同一智能体循环中无缝整合GUI和CLI交互，显著增强了在复杂现实场景中执行混合任务的能力。
模型具备跨框架、跨平台的一致性表现，现已通过阿里云Model Studio开放，为开发者和行业提供了便捷的接入途径。

Qwen3.7-Plus发布：统一视觉与语言的通用多模态智能体模型

核心要点

Related posts