OCR的相关内容 - 漫话开发者

2025-04-06 talkingdev

OCR pipeline革新ML训练：支持表格、图表、数学公式及多语言处理

近日，一款专注于ML训练的OCR pipeline技术引发业界关注。该工具创新性地支持表格、图表、数学公式等复杂结构的识别，并具备多语言处理能力，为机器学习数据预处理提供了高效解决方案。其核心优势在于通过优化的算法...

2025-03-19 talkingdev

近日，一款名为SmolDocling的新型文档OCR（光学字符识别）模型引发广泛关注。该模型以其极小的规模和高效的性能脱颖而出，成为文档处理领域的最新突破。SmolDocling不仅能够实现闪电般的处理速度，还具备足够的准确...

2025-02-27 talkingdev

Allen AI近日宣布，其通过持续微调Qwen VL模型，成功训练出一款强大的PDF文本提取工具——OlmOCR。该模型基于超过20万份PDF文档进行训练，能够高效、精准地提取PDF中的文本内容。OlmOCR的推出标志着PDF文本提取技术的...

2025-02-27 talkingdev

随着Vision Language Models（VLMs）的快速发展，传统的光学字符识别（OCR）技术正面临被取代的可能。VLMs结合了计算机视觉和自然语言处理的能力，能够更准确地理解和解析图像中的文本内容。与OCR相比，VLMs不仅能识...

2024-11-22 talkingdev

Meta的Llama项目在开源AI模型与封闭模型的哲学辩论中扮演了关键角色。Llama是Meta全面战略转型的核心，标志着公司全力投入生成性人工智能。2023年7月发布的Llama 2是Meta和创始人马克·扎克伯格（Mark Zuckerberg）的...

2024-08-10 talkingdev

近日，一项名为LLM-aided OCR的技术在OCR领域引起了极大的关注，该技术使用LLM（语言模型）来协助纠正Tesseract OCR的错误。Tesseract OCR是一种开源OCR引擎，具有高度的准确性，但仍然无法避免一些错误。LLM-aided...

2024-07-24 talkingdev

随着数字化时代的到来，文件的电子化处理已经成为各行各业的标配。然而，文件的电子化处理通常需要时间和人力成本较高的OCR技术，而且现有的OCR技术并不能完全满足用户的需求。为了解决这个问题，一家名为Zerox的初...

2024-07-22 talkingdev

OpenOCR是一个旨在统一场景文本检测与识别算法的训练和评估基准。它通过提供一系列的评估标准，使得科研人员和工程师们能够在相同的条件下，对他们的算法进行测试与比较。这为文本检测与识别领域的研究提供了一个公...