漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-11-23 talkingdev

Fourty.News:用AI重现40年前新闻,在历史中寻找当下焦虑的解药

近日上线的Fourty.News项目通过技术创新实现了独特的新闻阅读体验——将40年前的历史新闻经过AI处理重新编排成每日资讯。该项目采用多步骤大语言模型流水线技术:首先通过OCR将旧报纸扫描件转为文本,随后运用包含戏剧...

Read More
2025-11-05 talkingdev

Grab自研视觉大模型文档处理,破解东南亚多语言OCR难题

东南亚科技巨头Grab近日宣布成功研发定制化视觉大语言模型,彻底革新传统OCR文档处理流程。该模型针对东南亚地区非标准化文档格式及多语言混合场景进行专项优化,通过重构开源架构实现推理速度提升50%,同时保持高精...

Read More
2025-10-27 talkingdev

员工利用AI伪造超逼真报销票据激增,企业软件商警告图像生成模型滥用风险

据《金融时报》科技记者Cristina Criddle报道,企业支出管理平台AppZen等机构发现,员工正利用先进图像生成模型制作难以辨伪的虚假报销票据。这一趋势与生成式AI技术的突破直接相关,当前主流AI模型已能生成包含完整...

Read More
2025-10-21 talkingdev

开源|DeepSeek-OCR:突破长上下文压缩瓶颈,日生成20万页训练数据

DeepSeek-AI团队最新开源的DeepSeek-OCR项目在长上下文压缩技术领域实现重要突破。该项目通过创新的光学二维映射技术,探索将长文本上下文进行高效压缩的可行性。系统由DeepEncoder核心引擎和DeepSeek3B-Moe-A570M解...

Read More
2025-08-16 talkingdev

阿姆斯特丹Ritman图书馆数字化2178本神秘学书籍并在线公开,获《达芬奇密码》作者丹·布朗支持

阿姆斯特丹Ritman图书馆与《达芬奇密码》作者丹·布朗合作,成功将2178本珍贵的神秘学书籍数字化并免费向公众开放。这一项目不仅保护了这些易损的历史文献,还通过现代技术手段让全球研究者能够便捷地访问这些稀有资...

Read More
2025-07-22 talkingdev

Morphik.ai提出视觉文档检索新方法:用图像替代传统OCR解析

Morphik.ai公司创新性地提出了一种基于视觉的文档检索方法,该方法摒弃了传统的OCR(光学字符识别)和解析技术,转而采用文档页面的图像作为处理对象。通过将文档图像分割成小块,并利用视觉Transformer和语言模型,...

Read More
2025-07-22 talkingdev

无需解析文档:直接使用图像进行RAG检索

从复杂的PDF中提取信息一直是个棘手的问题。行业在OCR(光学字符识别)、布局检测和解析流程上投入了大量精力和资金,却仍可能丢失最关键的信息。如今,视觉语言模型(Vision Language Models)已经足够强大,能够直...

Read More
2025-06-17 talkingdev

Nanonets-OCR-s:革命性图像转Markdown OCR模型,超越传统文本提取

Nanonets-OCR-s是一款前沿的图像转Markdown OCR模型,其能力远超传统文本提取技术。该模型通过智能内容识别和语义标记,能够将文档转化为结构化的Markdown格式。它不仅理解文档结构和内容上下文,还能输出智能格式化...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page