漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-02-04 talkingdev

开源|GLM-OCR:集成CogViT与GLM-0.5B的多模态文档理解模型发布

近日,由zai-org团队在Hugging Face平台开源了GLM-OCR模型,这是一款专为复杂文档理解设计的先进多模态OCR系统。该模型的核心创新在于其精巧的三段式架构:首先,它采用了在大规模图文数据上预训练的CogViT视觉编码...

Read More
2026-01-19 talkingdev

开源|Lume 0.2发布:实现macOS虚拟机全自动部署,为AI代理与CI/CD提供隔离沙盒

近日,开源项目Lume发布了0.2版本,这是一个专为Apple Silicon设计的命令行工具,用于创建和管理macOS及Linux虚拟机。新版本的核心突破在于实现了“无人值守安装”,开发者可以从IPSW系统镜像直接启动一个完全配置好的...

Read More
2025-11-23 talkingdev

Fourty.News:用AI重现40年前新闻,在历史中寻找当下焦虑的解药

近日上线的Fourty.News项目通过技术创新实现了独特的新闻阅读体验——将40年前的历史新闻经过AI处理重新编排成每日资讯。该项目采用多步骤大语言模型流水线技术:首先通过OCR将旧报纸扫描件转为文本,随后运用包含戏剧...

Read More
2025-11-05 talkingdev

Grab自研视觉大模型文档处理,破解东南亚多语言OCR难题

东南亚科技巨头Grab近日宣布成功研发定制化视觉大语言模型,彻底革新传统OCR文档处理流程。该模型针对东南亚地区非标准化文档格式及多语言混合场景进行专项优化,通过重构开源架构实现推理速度提升50%,同时保持高精...

Read More
2025-10-27 talkingdev

员工利用AI伪造超逼真报销票据激增,企业软件商警告图像生成模型滥用风险

据《金融时报》科技记者Cristina Criddle报道,企业支出管理平台AppZen等机构发现,员工正利用先进图像生成模型制作难以辨伪的虚假报销票据。这一趋势与生成式AI技术的突破直接相关,当前主流AI模型已能生成包含完整...

Read More
2025-10-21 talkingdev

开源|DeepSeek-OCR:突破长上下文压缩瓶颈,日生成20万页训练数据

DeepSeek-AI团队最新开源的DeepSeek-OCR项目在长上下文压缩技术领域实现重要突破。该项目通过创新的光学二维映射技术,探索将长文本上下文进行高效压缩的可行性。系统由DeepEncoder核心引擎和DeepSeek3B-Moe-A570M解...

Read More
2025-08-16 talkingdev

阿姆斯特丹Ritman图书馆数字化2178本神秘学书籍并在线公开,获《达芬奇密码》作者丹·布朗支持

阿姆斯特丹Ritman图书馆与《达芬奇密码》作者丹·布朗合作,成功将2178本珍贵的神秘学书籍数字化并免费向公众开放。这一项目不仅保护了这些易损的历史文献,还通过现代技术手段让全球研究者能够便捷地访问这些稀有资...

Read More
2025-07-22 talkingdev

Morphik.ai提出视觉文档检索新方法:用图像替代传统OCR解析

Morphik.ai公司创新性地提出了一种基于视觉的文档检索方法,该方法摒弃了传统的OCR(光学字符识别)和解析技术,转而采用文档页面的图像作为处理对象。通过将文档图像分割成小块,并利用视觉Transformer和语言模型,...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page