漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

NVIDIA近日在Hugging Face平台发布博客,介绍了其最新研发的NEMOTRON OCR V2模型。该模型的核心创新在于完全利用合成数据进行训练,通过构建包含mOSCAR文本和多样化字体的合成数据管道,生成了跨语言的像素级完美标注数据,从而实现了对真实世界文档的强大泛化能力。在技术架构上,NEMOTRON OCR V2采用了统一的设计,通过重用特征图,在单张A100 GPU上实现了高达34.7页/秒的处理速度,显著超越了传统OCR方案。性能方面,该模型在非英语语言的OCR任务中取得了显著进步,将归一化编辑距离(NED)分数降至接近零的水平,这意味着其识别准确率已接近完美,在多语言OCR领域树立了新的性能标杆。这一进展不仅展示了合成数据在解决现实世界数据稀缺和标注成本高昂问题上的巨大潜力,也为文档数字化、多语言信息处理等应用场景提供了高效、精准的解决方案。

核心要点

  • 完全基于合成数据训练,通过mOSCAR文本和多样字体管道生成跨语言像素级标注,实现对真实文档的泛化。
  • 采用统一架构并重用特征图,在单A100 GPU上处理速度达34.7页/秒,效率卓越。
  • 在非英语语言OCR任务中取得重大精度突破,将归一化编辑距离(NED)分数降至近零水平。

Read more >