文档解析的相关内容 - 漫话开发者

2026-03-19 talkingdev

开源|百度发布千帆VL系列企业级视觉语言模型，专攻文档解析与复杂视觉推理

百度近期在GitHub上开源了其企业级视觉语言模型系列——千帆VL（Qianfan-VL）。该系列模型并非通用型多模态模型的简单变体，而是针对工业场景进行了深度优化和增强的专用模型。其核心设计目标是解决企业级应用中的实际...

2026-01-08 talkingdev

在开源人工智能社区中，PDF文档长期以来被视为一座未被充分挖掘的高质量数据金矿。近日，Hugging Face团队正式发布了其开创性的预训练数据集项目——FinePDFs，成功从海量PDF文档中提取并构建了一个规模超过3万亿令牌...

2025-12-31 talkingdev

近日，一个名为Zpdf的开源项目在开发者社区引发关注。该项目是一个完全使用Zig语言编写的PDF文本提取库，其核心设计理念是“零拷贝”（Zero-copy），旨在实现极致性能。Zpdf通过内存映射（memory-mapped）技术直接操作...

2025-12-17 talkingdev

阿里云通义千问团队近日在GitHub上开源了Qwen-Doc项目，这是一个专注于文档人工智能（Document AI）的开源计划。该项目旨在通过提供先进的模型和工具集，显著提升AI系统对长上下文文档的理解、解析能力，并支持基于...

2025-10-21 talkingdev

近日，一款名为Perron的开源静态站点生成器正式发布，其基于Ruby on Rails框架构建，专为Rails开发者设计。该工具允许开发者直接运用现有的Rails知识体系，结合熟悉的ViewComponent组件库和Tailwind CSS框架快速构建...

2025-10-16 talkingdev

一位开发者通过逆向工程成功解析了苹果iWork办公套件的原生文件格式，并创建了名为WorkKit的Swift开源工具包。该工具可直接解析.key（Keynote）、.numbers（Numbers）和.pages（Pages）文件，无需通过格式导出或依赖...

2025-08-05 talkingdev

一项名为cchistory的逆向工程项目成功追踪了Anthropic公司旗下Claude Code人工智能助手67个版本的系统提示词演变过程。该项目通过突破反调试保护措施，揭示了AI公司如何通过精细调整系统指令（而非单纯模型升级）来...

2025-07-22 talkingdev

从复杂的PDF中提取信息一直是个棘手的问题。行业在OCR（光学字符识别）、布局检测和解析流程上投入了大量精力和资金，却仍可能丢失最关键的信息。如今，视觉语言模型（Vision Language Models）已经足够强大，能够直...