开源|GLM-OCR：集成CogViT与GLM-0.5B的多模态文档理解模型发布

talkingdev • 2026-02-04

6571 views

近日，由zai-org团队在Hugging Face平台开源了GLM-OCR模型，这是一款专为复杂文档理解设计的先进多模态OCR系统。该模型的核心创新在于其精巧的三段式架构：首先，它采用了在大规模图文数据上预训练的CogViT视觉编码器，使其具备强大的图像特征提取能力；其次，通过一个轻量级的跨模态连接器并辅以高效的令牌下采样技术，实现了视觉与语言信息的高效对齐与融合；最后，模型利用一个拥有50亿参数的GLM-0.5B语言解码器，负责生成最终的结构化文本信息。这种设计使得GLM-OCR在面对表格、图表、多栏排版等多样化、复杂的文档布局时，依然能够保持鲁棒且高质量的识别性能，显著提升了传统OCR技术在非结构化文档处理上的上限。为了方便开发者与应用集成，团队同时提供了高效的SDK工具包，这无疑将加速该技术在智能文档处理、知识图谱构建、金融票据识别等实际场景中的落地与应用。此次开源是推动人工智能民主化进程的又一重要举措，为文档智能领域的研究与开发提供了强有力的新工具。

核心要点

GLM-OCR采用CogViT视觉编码器、跨模态连接器与GLM-0.5B语言解码器的三段式架构，专为复杂文档理解设计。
模型在多样化文档布局（如表格、多栏排版）上展现出鲁棒且高质量的OCR识别性能。
项目提供了配套的SDK，便于开发者集成使用，推动技术在金融、知识管理等实际场景的落地。

开源|GLM-OCR：集成CogViT与GLM-0.5B的多模态文档理解模型发布

核心要点

Related posts