开源|智谱AI发布GLM-4.6V系列多模态大模型:原生工具调用与128K上下文窗口
talkingdev • 2025-12-10
1281 views
智谱AI近日正式开源了其新一代多模态大模型系列——GLM-4.6V。该系列包含两个关键版本:GLM-4.6V(106B)和GLM-4.6V-Flash(9B)。前者是面向云端和高性能集群场景设计的基础模型,后者则是为本地部署和低延迟应用优化的轻量级版本。此次发布的核心技术突破在于,GLM-4.6V在训练阶段将其上下文窗口扩展至128K令牌,显著提升了处理长文档和复杂多轮对话的能力。在视觉理解和推理任务上,该模型在同等参数规模的模型中实现了业界领先(SoTA)的性能表现。尤为值得关注的是,GLM-4.6V具备原生的“函数调用”(Function Calling)能力,这意味着模型能够直接理解和执行外部工具或API的调用指令,为实现更复杂的智能体(Agent)应用和自动化工作流奠定了坚实的技术基础。这一开源举措不仅为学术界和工业界提供了强大的多模态研究基准,也预示着开源大模型在工具集成与场景化应用方面正进入一个全新的阶段。
核心要点
- 智谱AI开源GLM-4.6V多模态大模型系列,包含106B云端版和9B轻量本地版。
- 模型核心突破包括128K超长上下文窗口训练,以及在视觉理解与推理任务上达到同规模模型领先水平。
- 模型原生支持函数调用(Function Calling)能力,为构建复杂AI智能体和自动化流程提供关键技术支持。