[开源] Morphik:开源多模态RAG系统,本地运行可解析PDF图像内容
talkingdev • 2025-04-22
15773 views
开发者Adi和Arnav在尝试让大语言模型(LLM)处理研究论文和说明书中的问题时,发现现有RAG(检索增强生成)系统无法有效解析PDF中的图像和图表内容,甚至GPT-4o和O3模型也表现不佳。为此,他们开发了开源项目Morphik,该系统采用Colpali风格的多向量嵌入技术,将文档页面视为图像并生成包含布局、排版和视觉上下文信息的嵌入表示,从而实现对图像和文本的统一检索。Morphik还集成了知识图谱技术,能够跨文档关联实体和关系,显著提升了复杂查询的准确性。此外,项目还引入了持久化KV缓存技术,加速多轮查询的处理速度。目前,Morphik已在医药领域测试中成功解析了包含图表和表格的复杂查询,并开源在GitHub上。
核心要点
- Morphik是开源的多模态RAG系统,能够解析PDF中的图像和图表内容,解决了现有技术在此类任务上的不足。
- 系统采用Colpali风格嵌入和知识图谱技术,支持跨文档关联和复杂查询,显著提升了信息检索的准确性。
- 项目还引入了持久化KV缓存技术,优化了多轮查询的处理效率,并已在医药领域测试中验证了其效果。