近日,由zai-org团队在Hugging Face平台开源了GLM-OCR模型,这是一款专为复杂文档理解设计的先进多模态OCR系统。该模型的核心创新在于其精巧的三段式架构:首先,它采用了在大规模图文数据上预训练的CogViT视觉编码...
Read More近日,开源项目Lume发布了0.2版本,这是一个专为Apple Silicon设计的命令行工具,用于创建和管理macOS及Linux虚拟机。新版本的核心突破在于实现了“无人值守安装”,开发者可以从IPSW系统镜像直接启动一个完全配置好的...
Read More近日上线的Fourty.News项目通过技术创新实现了独特的新闻阅读体验——将40年前的历史新闻经过AI处理重新编排成每日资讯。该项目采用多步骤大语言模型流水线技术:首先通过OCR将旧报纸扫描件转为文本,随后运用包含戏剧...
Read More东南亚科技巨头Grab近日宣布成功研发定制化视觉大语言模型,彻底革新传统OCR文档处理流程。该模型针对东南亚地区非标准化文档格式及多语言混合场景进行专项优化,通过重构开源架构实现推理速度提升50%,同时保持高精...
Read More据《金融时报》科技记者Cristina Criddle报道,企业支出管理平台AppZen等机构发现,员工正利用先进图像生成模型制作难以辨伪的虚假报销票据。这一趋势与生成式AI技术的突破直接相关,当前主流AI模型已能生成包含完整...
Read MoreDeepSeek-AI团队最新开源的DeepSeek-OCR项目在长上下文压缩技术领域实现重要突破。该项目通过创新的光学二维映射技术,探索将长文本上下文进行高效压缩的可行性。系统由DeepEncoder核心引擎和DeepSeek3B-Moe-A570M解...
Read More阿姆斯特丹Ritman图书馆与《达芬奇密码》作者丹·布朗合作,成功将2178本珍贵的神秘学书籍数字化并免费向公众开放。这一项目不仅保护了这些易损的历史文献,还通过现代技术手段让全球研究者能够便捷地访问这些稀有资...
Read MoreMorphik.ai公司创新性地提出了一种基于视觉的文档检索方法,该方法摒弃了传统的OCR(光学字符识别)和解析技术,转而采用文档页面的图像作为处理对象。通过将文档图像分割成小块,并利用视觉Transformer和语言模型,...
Read More