漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-07-22 talkingdev

Morphik.ai提出视觉文档检索新方法:用图像替代传统OCR解析

Morphik.ai公司创新性地提出了一种基于视觉的文档检索方法,该方法摒弃了传统的OCR(光学字符识别)和解析技术,转而采用文档页面的图像作为处理对象。通过将文档图像分割成小块,并利用视觉Transformer和语言模型,...

Read More
2025-07-22 talkingdev

无需解析文档:直接使用图像进行RAG检索

从复杂的PDF中提取信息一直是个棘手的问题。行业在OCR(光学字符识别)、布局检测和解析流程上投入了大量精力和资金,却仍可能丢失最关键的信息。如今,视觉语言模型(Vision Language Models)已经足够强大,能够直...

Read More
2025-06-17 talkingdev

Nanonets-OCR-s:革命性图像转Markdown OCR模型,超越传统文本提取

Nanonets-OCR-s是一款前沿的图像转Markdown OCR模型,其能力远超传统文本提取技术。该模型通过智能内容识别和语义标记,能够将文档转化为结构化的Markdown格式。它不仅理解文档结构和内容上下文,还能输出智能格式化...

Read More
2025-06-17 talkingdev

NanonetsOCR:将文档转为结构化Markdown模型

Hugging Face平台上的Nanonets-OCR-s项目近日引发技术社区关注,该OCR模型能够将复杂文档(如PDF、扫描件)高效转换为结构化Markdown格式,解决了传统OCR输出非结构化数据的行业痛点。其技术亮点包括基于深度学习的...

Read More
2025-05-27 talkingdev

Mistral AI推出企业级文档AI与OCR解决方案,重塑文档管理流程

Mistral AI最新推出的企业级文档AI解决方案,通过整合先进的OCR(光学字符识别)技术,为组织提供高效的文档管理工具。该系统能够从多种文档类型中精准提取并分类数据,不仅大幅提升数据处理效率,还帮助企业更好地...

Read More
2025-05-04 talkingdev

浏览器内免费PDF编辑器BreezePDF发布,支持文本编辑、签名合并及加密

近日,一款名为BreezePDF的免费在线PDF编辑器引发技术社区广泛关注。该工具突破传统PDF软件限制,直接在浏览器中实现全功能操作:支持添加文本、图片、电子签名、表单字段,可删除/合并页面并通过密码保护文档安全。...

Read More
2025-04-06 talkingdev

OCR pipeline革新ML训练:支持表格、图表、数学公式及多语言处理

近日,一款专注于ML训练的OCR pipeline技术引发业界关注。该工具创新性地支持表格、图表、数学公式等复杂结构的识别,并具备多语言处理能力,为机器学习数据预处理提供了高效解决方案。其核心优势在于通过优化的算法...

Read More
2025-03-19 talkingdev

[论文推荐]SmolDocling:极小型高效文档OCR模型

近日,一款名为SmolDocling的新型文档OCR(光学字符识别)模型引发广泛关注。该模型以其极小的规模和高效的性能脱颖而出,成为文档处理领域的最新突破。SmolDocling不仅能够实现闪电般的处理速度,还具备足够的准确...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page