视觉理解的相关内容 - 漫话开发者

2026-06-10 talkingdev

Anthropic发布Claude Fable 5：面向通用场景的“神话级”模型，强化安全与多域能力

Anthropic近日正式推出了两款全新的模型：Claude Fable 5和Claude Mythos 5。其中，Claude Fable 5是一款经过安全适配、面向大众场景的“Mythos级”模型，标志着Anthropic在强化模型能力与可控性之间取得了关键平衡。...

2026-05-01 talkingdev

智谱AI团队发布的最新研究成果GLM-5V-Turbo，在人工智能领域迈出了关键一步。该模型的核心创新在于将多模态感知能力直接内嵌到模型的推理过程和工具使用中，而非作为独立的预处理步骤。这意味着模型能够同时处理并理...

2026-04-27 talkingdev

来自arxiv的最新研究提出了一种名为Vision Banana的通用视觉模型，该模型的核心创新在于将传统的视觉感知任务重新表述为图像生成问题。通过指令微调（instruction-tuning）的图像生成模型，Vision Banana能够在多种...

2026-01-08 talkingdev

近日，由MineDojo团队在GitHub上开源的项目NitroGen引起了人工智能与游戏交叉领域的广泛关注。该项目提出了一个旨在成为“通用游戏智能体”的基础模型。其核心创新在于，模型并非针对单一游戏进行专门训练，而是通过大...

2025-12-10 talkingdev

智谱AI近日正式开源了其新一代多模态大模型系列——GLM-4.6V。该系列包含两个关键版本：GLM-4.6V（106B）和GLM-4.6V-Flash（9B）。前者是面向云端和高性能集群场景设计的基础模型，后者则是为本地部署和低延迟应用优化...

2025-11-30 talkingdev

开发者gavrielc基于谷歌最新Gemini 3 Pro Image模型（代号Nano Banana）推出开源CLI工具Nano PDF，实现了通过自然语言指令直接编辑PDF文档的技术突破。该工具将指定PDF页面转换为图像，结合用户文本提示调用多模态AI...

2025-11-20 talkingdev

Meta公司最新开源的Segment Anything Model 3（SAM 3）标志着图像分割技术进入全新发展阶段。该版本突破性地融合了文本与视觉双重提示能力，用户既可通过文字描述指定分割目标，也能通过点击、框选等视觉交互方式精...

2025-10-27 talkingdev

Anthropic研究团队在《Circuits Updates – October 2025》中披露了令人振奋的发现：其大型语言模型Claude的内部神经元展现出跨模态理解能力。实验表明，当模型处理文字“眼睛”时激活的特定神经元，在遇到用@符号排列...