漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-07-30 talkingdev

Lumana AI完成4000万美元A轮融资,将视觉语言模型与智能代理AI整合至视频监控系统

人工智能初创公司Lumana AI Inc.近日宣布完成4000万美元的A轮融资,本轮融资由Wing Venture Capital领投。该公司致力于通过人工智能技术革新视频监控领域,其核心创新在于将先进的视觉语言模型(Vision-Language Mod...

Read More
2025-07-22 talkingdev

无需解析文档:直接使用图像进行RAG检索

从复杂的PDF中提取信息一直是个棘手的问题。行业在OCR(光学字符识别)、布局检测和解析流程上投入了大量精力和资金,却仍可能丢失最关键的信息。如今,视觉语言模型(Vision Language Models)已经足够强大,能够直...

Read More
2025-07-11 talkingdev

Cactus:支持手机部署LLM/VLM/TTS跨平台框架

开发者Henry和Roman近日推出开源项目Cactus,这是一个专为智能手机设计的跨平台框架,支持本地部署大型语言模型(LLM)、视觉语言模型(VLM)和文本转语音(TTS)模型。与Ollama专注于笔记本和边缘服务器不同,Cactu...

Read More
2025-06-13 talkingdev

ReVisiT-提升视觉语言模型的视觉定位能力

近期在GitHub上开源的ReVisiT项目,通过创新性地利用内部视觉标记(vision tokens)引导生成过程,显著提升了大型视觉语言模型(LVLM)的视觉定位能力。这一技术突破解决了当前多模态模型在生成文本时与视觉内容对齐...

Read More
2025-06-11 talkingdev

[开源]LLaVA-STF:高效多模态推理技术实现75%的视觉令牌压缩

LLaVA-STF项目通过创新的相邻令牌合并技术和多区块令牌融合模块,成功将视觉令牌序列压缩75%,显著提升了多模态推理效率。该技术突破性地解决了视觉语言模型中长序列处理带来的计算资源消耗问题,通过动态合并语义相...

Read More
2025-06-10 talkingdev

Hugging Face推出ScreenSuite:标准化评估GUI智能体的新基准套件

Hugging Face最新发布的ScreenSuite是一款专为评估视觉语言模型(Vision-Language Models, VLMs)在图形用户界面(GUI)智能体任务中表现而设计的基准测试套件。该工具通过提供标准化的评估框架,填补了当前多模态模...

Read More
2025-05-30 talkingdev

[开源]Meta提出零样本嫁接技术:降低VLM训练成本45%

Meta研究团队最新提出的零样本嫁接(zero-shot grafting)方法,通过从大型语言模型(LLM)的浅层中提取小型代理模型来训练视觉编码器,实现了视觉语言模型(VLM)训练成本降低约45%的突破。该技术不仅显著降低了计...

Read More
2025-05-16 talkingdev

开源OpenThinkIMG:视觉语言模型推理与分布式部署工具库

OpenThinkIMG项目为视觉语言模型(VLMs)提供了革命性的视觉工具调用框架,其核心技术突破体现在三个方面:首先,通过动态推理机制实现多工具链式调用,使AI能根据图像内容自主选择处理工具;其次,创新的V-ToolRL强化...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page