多模态智能体的相关内容 - 漫话开发者

2026-06-02 talkingdev

Qwen3.7-Plus发布：统一视觉与语言的通用多模态智能体模型

阿里巴巴通义千问团队近日发布了其最新的多模态智能体模型Qwen3.7-Plus，标志着通用人工智能在感知与行动融合层面迈出了重要一步。该模型将视觉识别与语言理解能力深度融合，构建了一个单一、通用的多模态智能体基础...

2026-04-03 talkingdev

阿里云通义千问团队近日发布了其最新旗舰模型Qwen3.6-Plus，标志着其在构建面向真实世界的智能体（Agents）道路上迈出了关键一步。该模型在多模态感知与推理能力上实现了显著提升，能够更精准地理解世界，为开发者生...

2025-11-25 talkingdev

Gemini 3的发布标志着人工智能领域的重要转折——从基础对话系统升级为具备自主行动能力的智能体模型。该模型已能独立完成复杂编程任务、设计用户界面及开展学术研究，其能力达到博士级研究水平。虽然仍需人类指导，但...

2025-10-28 talkingdev

人工智能初创公司Decart与语音技术领军企业ElevenLabs合作，推出开源实时唇形同步API技术。该技术通过实时音频流输入，可生成精准同步的虚拟人像视频与语音输出，支持任意语音引擎与自定义角色配置。这项突破性技术...

2025-09-04 talkingdev

GitHub上最新开源项目“Awesome Agentic LLM+RL Papers”系统性地整理了大语言模型（LLM）与强化学习（RL）结合的智能体研究领域的关键论文资源。该资源库聚焦于Agentic AI这一前沿方向，涵盖了LLM作为决策核心与RL训...

2025-06-11 talkingdev

强化学习预训练（Reinforcement Pre-Training, RPT）作为大语言模型（LLM）与强化学习（RL）协同进化的前沿技术，提出了一种革命性的规模化训练范式。该技术通过创新性地利用海量文本数据进行通用强化学习预训练，在...

2025-05-13 talkingdev

Hugging Face最新技术报告揭示了视觉语言模型(VLM)领域的重大突破。研究表明，通过架构优化，新一代模型在保持较小参数量的同时，显著提升了多模态理解能力。这些进步主要体现在三个方面：复杂场景的推理能力、动态...