OCR技术的相关内容 - 漫话开发者

2025-03-19 talkingdev

[论文推荐]SmolDocling：极小型高效文档OCR模型

近日，一款名为SmolDocling的新型文档OCR（光学字符识别）模型引发广泛关注。该模型以其极小的规模和高效的性能脱颖而出，成为文档处理领域的最新突破。SmolDocling不仅能够实现闪电般的处理速度，还具备足够的准确...

2025-02-27 talkingdev

随着Vision Language Models（VLMs）的快速发展，传统的光学字符识别（OCR）技术正面临被取代的可能。VLMs结合了计算机视觉和自然语言处理的能力，能够更准确地理解和解析图像中的文本内容。与OCR相比，VLMs不仅能识...

2024-08-10 talkingdev

近日，一项名为LLM-aided OCR的技术在OCR领域引起了极大的关注，该技术使用LLM（语言模型）来协助纠正Tesseract OCR的错误。Tesseract OCR是一种开源OCR引擎，具有高度的准确性，但仍然无法避免一些错误。LLM-aided...

2024-07-24 talkingdev

随着数字化时代的到来，文件的电子化处理已经成为各行各业的标配。然而，文件的电子化处理通常需要时间和人力成本较高的OCR技术，而且现有的OCR技术并不能完全满足用户的需求。为了解决这个问题，一家名为Zerox的初...

2024-03-12 talkingdev

互联网档案馆拥有超过2亿个OCR图书页面，可供研究使用。该数据集可用于文本识别、自然语言处理、信息检索等多个领域的研究。研究人员可以使用该数据集进行模型训练、语言建模、数据分析等工作。该数据集的发布将加速...

2024-01-16 talkingdev

排线检测是在图像或PDF中在文本行周围放置一个边界框的过程。Surya是一个非常强大的多语言排线检测模型，并已在GitHub上开源发布。该模型可以识别多种语言，包括中文、英文、法文、德文和印地文等，并且可以在不同的...

2023-06-16 talkingdev

Easy OCR是一个强大的OCR技术开源库，能够从图像或PDF中提取文本。它已经支持了超过80种语言，并采用了一些最先进的方法。 ## Easy OCR的三大核心优势 - 支持超过80种语言，适用于全球各地的使用者。 - 采用最先进...