GPT-4V的相关内容 - 漫话开发者

2025-09-23 talkingdev

阿里发布通义千问Qwen3-Omni：开源多模态AI模型可处理文本、音频、图像及视频输入并生成文本与语音输出

阿里巴巴正式推出通义千问Qwen3-Omni系列开源人工智能模型，该模型实现了对文本、音频、图像和视频四类模态数据的统一处理能力，并能同步生成文本与语音输出。作为中国科技企业对抗美国科技巨头的重要技术突破，Qwen...

2025-04-23 talkingdev

近日，科技社区热议的π0.5（Pi-0.5）模型在开放世界泛化能力上取得重要进展。该视觉语言模型（VLA）通过创新架构设计，在未见过的新场景中展现出超越同类模型的零样本学习能力。技术博客透露，其核心突破在于动态多...

2024-05-07 talkingdev

像GPT-4V这样的视觉-语言模型在理解和与图像和文本交互方面正在快速发展。然而，最近的一项研究揭示了它们在视觉推理上的重大限制。研究人员使用复杂的视觉难题，如智商测试中的难题，来测试这些模型，并发现它们在...

2024-04-02 talkingdev

视觉语言模型（VLMs）在处理输入图像时，有时会遇到无法回答的问题。即便是最先进的VLMs，如GPT-4V，也面临这一挑战。本文提出了一个针对VLMs在面对无解问题时的基准测试，并探讨了一些可能的改进方向。研究者们通过...

2024-03-22 talkingdev

PuzzleVQA是一个专为测试大型多模态模型，如GPT-4V的抽象推理能力而设计的数据集。该数据集通过一系列复杂的视觉问题和答案对，评估模型在理解和推理方面的表现。这些问题往往需要模型进行深层次的逻辑思考和抽象概...

2024-03-01 talkingdev

本研究致力于提高基于多模态的GPT-4V等模型在低级视觉感知任务中的表现。大规模实验从58,000名人类受试者中收集了18,973张图像的反馈，并创建了Q-Pathway数据集，以分析其清晰度、色彩和亮度。

2024-02-09 talkingdev

一项新研究揭示了多模态大型语言模型（MLLMs）如GPT-4V的一个弱点：它们难以处理特定类型的图像-文本输入，从而导致错误。CorrelationQA是一个基准测试，旨在评估MLLM在图像可能会误导或与文本相矛盾的情况下的表现...

2024-01-11 talkingdev

研究人员开发了一种新的文本到3D生成模型的评估指标，解决了当前单一标准指标的局限性。这种先进的方法使用GPT-4V来创建提示并比较3D资产。它与人类偏好密切相关，并通过适应各种用户定义的标准来提供多样性。