VLM的相关内容 - 漫话开发者

2025-03-17 talkingdev

[开源] Visual reasoning models：提升视觉语言模型推理能力的新工具包

近日，GitHub上发布了一个名为'Visual reasoning models'的开源工具包，旨在训练视觉语言模型（VLMs）以提升其基础逻辑和推理能力。该工具包由groundlight团队开发，主要专注于增强模型在处理复杂视觉数据时的理解和...

2025-03-14 talkingdev

近日，GitHub上发布了一个名为REF-VLM的开源项目，该项目通过引入基于三元组的结构化表示，统一了多模态大语言模型（LLMs）中的视觉解码任务。多模态LLMs是当前人工智能领域的前沿技术，能够在处理视觉和文本信息时...

2025-02-27 talkingdev

随着Vision Language Models（VLMs）的快速发展，传统的光学字符识别（OCR）技术正面临被取代的可能。VLMs结合了计算机视觉和自然语言处理的能力，能够更准确地理解和解析图像中的文本内容。与OCR相比，VLMs不仅能识...

2025-02-13 talkingdev

DeepMind近期在视觉语言模型（VLM）预训练领域取得了重大突破，将训练数据规模提升至前所未有的1000亿张图像。这一规模远超以往尝试，显著提升了模型在多样化全球任务中的表现。尽管在西方中心化任务上的性能已趋于...

2025-01-24 talkingdev

LOKI 是一个用于评估视觉语言模型（VLMs）在检测新颖和具有挑战性项目方面表现的合成基准测试工具。该基准测试通过生成复杂的多模态数据，帮助研究人员更好地理解模型在处理未知或复杂场景时的能力。LOKI 的设计旨在...

2024-07-10 talkingdev

Video Self-Training with augmented Reasoning (Video-STaR)是一种新的方法，用于改进大型视觉语言模型（LVLMs）。通过自我训练和增强推理，Video-STaR能够提高模型的学习能力和预测准确性。这种方法的主要优势在于...

2024-07-03 talkingdev

LLaRA是一个使用大型语言模型（LLM）来通过对话式的指令-响应对提高机器人行动政策的框架。通过整合视觉输入，这些视觉语言模型（VLM）处理状态信息并生成最优的政策决策。LLM的使用增强了机器人的理解和应对能力，...

2024-06-21 talkingdev

视觉启用的语言模型（VLMs）如GPT-4o和Gemini，能够赋予自主代理人完成诸如进行购物或编辑代码等任务的能力。然而，这项工作也突出了这些代理人易受到恶意攻击的脆弱性。在现实世界中，我们必须对这些具有视觉理解能...