文档智能的相关内容 - 漫话开发者

2026-03-11 talkingdev

开源|RCLI：完全本地的macOS语音AI助手，无需云端即可控制电脑与文档问答

近日，GitHub上开源项目RCLI引发开发者社区关注。该项目是一款专为搭载Apple Silicon芯片的macOS设备设计的全本地化语音AI助手。其核心价值在于构建了一个完整的端侧AI处理流水线，集成了语音识别（Speech-to-Text）...

2026-02-04 talkingdev

近日，由zai-org团队在Hugging Face平台开源了GLM-OCR模型，这是一款专为复杂文档理解设计的先进多模态OCR系统。该模型的核心创新在于其精巧的三段式架构：首先，它采用了在大规模图文数据上预训练的CogViT视觉编码...

2026-01-19 talkingdev

近日，一个名为chunkhound的开源项目在GitHub上发布，为AI驱动的文档处理与检索工作流带来了新的工具选择。该项目是一个完全采用Rust语言编写的AI分块库，其核心功能是将冗长的文档智能地分割成具有语义连贯性的片段...

2025-12-17 talkingdev

阿里云通义千问团队近日在GitHub上开源了Qwen-Doc项目，这是一个专注于文档人工智能（Document AI）的开源计划。该项目旨在通过提供先进的模型和工具集，显著提升AI系统对长上下文文档的理解、解析能力，并支持基于...

2025-11-05 talkingdev

东南亚科技巨头Grab近日宣布成功研发定制化视觉大语言模型，彻底革新传统OCR文档处理流程。该模型针对东南亚地区非标准化文档格式及多语言混合场景进行专项优化，通过重构开源架构实现推理速度提升50%，同时保持高精...

2025-06-17 talkingdev

Hugging Face平台上的Nanonets-OCR-s项目近日引发技术社区关注，该OCR模型能够将复杂文档（如PDF、扫描件）高效转换为结构化Markdown格式，解决了传统OCR输出非结构化数据的行业痛点。其技术亮点包括基于深度学习的...