OCR的相关内容 - 漫话开发者

2024-05-23 talkingdev

Tarsier：提升LLMs与网页交互的开源工具

Reworkd公司近日发布了一款名为Tarsier的新工具，旨在通过使用括号和ID对网页元素进行视觉标记，增强大语言模型（LLMs）的网页交互任务处理能力。Tarsier利用OCR生成的文本表示，使得没有视觉功能的LLM也能理解网页...

2024-05-23 talkingdev

近日，MiniCMP-V发布了一个基于Llama 3训练的新版本。这款8B模型在多个任务上表现出色，甚至超越了许多闭源的专有模型。新版本的MiniCMP-V不仅支持30种不同的语言，还在光学字符识别（OCR）和视觉问答（visual quest...

2024-05-22 talkingdev

DeepSeek-VL 是一个专注于现实世界应用的全新开源视觉语言模型。该模型特别针对多样化的数据进行了优化，包括来自网页截图、图表以及 OCR（光学字符识别）数据的处理。DeepSeek-VL 的设计目标是提高在复杂和多样化数...

2024-05-09 talkingdev

近期，GitHub上发布了一款名为DocRes的新模型，能够简化文档图像修复的复杂性。该模型旨在处理五个任务：去扭曲、去阴影、美化外观、去模糊以及二值化。所有这些功能都集成在一个系统中，使得用户可以在一个平台上完...

2024-04-03 talkingdev

近日，一个庞大的工业文档OCR数据集正式发布，该数据集包含了2600万页的高质量PDF文档，总计约180亿个标记。这些文档涵盖了工业领域的广泛内容，包括机械设计、电气工程、自动化控制等多个方面。该数据集的发布，将...

2024-03-12 talkingdev

互联网档案馆拥有超过2亿个OCR图书页面，可供研究使用。该数据集可用于文本识别、自然语言处理、信息检索等多个领域的研究。研究人员可以使用该数据集进行模型训练、语言建模、数据分析等工作。该数据集的发布将加速...

2024-02-12 talkingdev

Miracode是基于Minecraft UI字体的Monocraft字体的可读版本。这个开源项目具有更好的可读性和更多的字形，可以在开发和设计中使用。这个开源项目已经在GitHub上发布，供所有人使用。Miracode的发布标志着Minecraft...

2024-02-02 talkingdev

Llava是一种视觉语言模型，最新版本为1.6，经过改进后，其OCR、推理和世界知识等方面有了很大提升，甚至在某些任务上可以与Gemini相媲美。Llava团队计划发布数据、代码和模型，以便更多人能够使用。