OCR的相关内容 - 漫话开发者

2026-05-07 talkingdev

美国国会图书馆推荐SQLite作为标准存储格式

SQLite，这款广受赞誉的嵌入式关系数据库引擎，近日获得了一项极具分量的认可——它被美国国会图书馆（Library of Congress）列入其推荐的“存储格式”列表。这一确认不仅意味着SQLite在数字保存和长期存档领域获得了顶...

2026-04-20 talkingdev

NVIDIA近日在Hugging Face平台发布博客，介绍了其最新研发的NEMOTRON OCR V2模型。该模型的核心创新在于完全利用合成数据进行训练，通过构建包含mOSCAR文本和多样化字体的合成数据管道，生成了跨语言的像素级完美标...

2026-03-19 talkingdev

百度近期在GitHub上开源了其企业级视觉语言模型系列——千帆VL（Qianfan-VL）。该系列模型并非通用型多模态模型的简单变体，而是针对工业场景进行了深度优化和增强的专用模型。其核心设计目标是解决企业级应用中的实际...

2026-02-04 talkingdev

近日，由zai-org团队在Hugging Face平台开源了GLM-OCR模型，这是一款专为复杂文档理解设计的先进多模态OCR系统。该模型的核心创新在于其精巧的三段式架构：首先，它采用了在大规模图文数据上预训练的CogViT视觉编码...

2026-01-19 talkingdev

近日，开源项目Lume发布了0.2版本，这是一个专为Apple Silicon设计的命令行工具，用于创建和管理macOS及Linux虚拟机。新版本的核心突破在于实现了“无人值守安装”，开发者可以从IPSW系统镜像直接启动一个完全配置好的...

2025-11-23 talkingdev

近日上线的Fourty.News项目通过技术创新实现了独特的新闻阅读体验——将40年前的历史新闻经过AI处理重新编排成每日资讯。该项目采用多步骤大语言模型流水线技术：首先通过OCR将旧报纸扫描件转为文本，随后运用包含戏剧...

2025-11-05 talkingdev

东南亚科技巨头Grab近日宣布成功研发定制化视觉大语言模型，彻底革新传统OCR文档处理流程。该模型针对东南亚地区非标准化文档格式及多语言混合场景进行专项优化，通过重构开源架构实现推理速度提升50%，同时保持高精...

2025-10-27 talkingdev

据《金融时报》科技记者Cristina Criddle报道，企业支出管理平台AppZen等机构发现，员工正利用先进图像生成模型制作难以辨伪的虚假报销票据。这一趋势与生成式AI技术的突破直接相关，当前主流AI模型已能生成包含完整...