视觉任务的相关内容 - 漫话开发者

2026-04-27 talkingdev

论文推荐|Vision Banana通用视觉模型：将图像生成重定义为感知任务，刷新SOTA

来自arxiv的最新研究提出了一种名为Vision Banana的通用视觉模型，该模型的核心创新在于将传统的视觉感知任务重新表述为图像生成问题。通过指令微调（instruction-tuning）的图像生成模型，Vision Banana能够在多种...

2026-03-19 talkingdev

百度近期在GitHub上开源了其企业级视觉语言模型系列——千帆VL（Qianfan-VL）。该系列模型并非通用型多模态模型的简单变体，而是针对工业场景进行了深度优化和增强的专用模型。其核心设计目标是解决企业级应用中的实际...

2025-12-15 talkingdev

人工智能平台Tinker今日宣布结束等待名单，正式向所有用户开放，并同步推出多项重要技术更新。本次更新的核心亮点包括：引入全新的推理模型Kimi K2 Thinking，该模型拥有万亿级参数，专为处理长链条复杂推理和工具调...

2025-05-16 talkingdev

OpenThinkIMG项目为视觉语言模型(VLMs)提供了革命性的视觉工具调用框架，其核心技术突破体现在三个方面：首先，通过动态推理机制实现多工具链式调用，使AI能根据图像内容自主选择处理工具；其次，创新的V-ToolRL强化...

2025-04-18 talkingdev

近日，OpenAI的ChatGPT在知名地理定位游戏GeoGuesser中展现出卓越的表现，标志着其在空间理解和图像解析能力上的显著提升。GeoGuesser要求玩家根据随机提供的街景图像精确定位地理位置，而ChatGPT通过结合多模态学习...

2025-04-04 talkingdev

清华大学智能图形学与几何计算实验室（THU-MIG）在GitHub上开源了名为Large Small Net（LSNet）的新型轻量级视觉模型家族。该模型创新性地借鉴了人类视觉系统的动态异尺度处理能力（"See Large, Focus Small"机制）...

2025-04-03 talkingdev

本文梳理了2024年以来最具影响力的AI模型，深入解析其技术特性与应用场景。OpenAI推出的GPT-4.5 Orion凭借其强大的世界知识建模能力成为通用AI领域的标杆；Google的Gemini 2.5 Pro则专注于代码生成与理解，为开发者...

2025-03-31 talkingdev

近日，一项名为Test-Time Visual In-Context Tuning（TT-VICT）的创新性研究在计算机视觉领域引发广泛关注。该技术突破性地提出仅利用测试样本即可实现视觉上下文学习模型（VICL）的自适应调优，有效解决了传统方法...