漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-04-23 talkingdev

AI推理新挑战:基准测试揭示智能体工作负载对引擎性能的深层影响

随着人工智能向智能体(Agent)方向演进,传统的大模型推理基准测试正面临根本性变革。智能体工作负载不再是简单的单轮问答,而是包含多轮交互、工具调用等复杂场景。这种变化给推理引擎带来了前所未有的压力,尤其...

Read More
2026-04-22 talkingdev

OpenAI研发代号“Hermes”的常驻智能体平台,ChatGPT将能自主执行任务

OpenAI正在其ChatGPT内部开发一个代号为“Hermes”的常驻智能体平台,该平台允许用户创建并持续运行自定义智能体。这一创新功能集成了工作流创建、技能整合与任务调度等核心能力,使得智能体能够独立运作,而无需等待...

Read More
2026-04-21 talkingdev

通义千问Qwen3.6-Max-Preview发布:世界知识更强,代码能力大幅进化

阿里云旗下通义千问团队近日发布了其大型语言模型的最新预览版本——Qwen3.6-Max-Preview。该版本在多个核心能力上实现了显著提升,尤其是在世界知识的掌握与指令遵循的准确性方面表现突出。更为关键的是,模型在广泛...

Read More
2026-04-21 talkingdev

月之暗面发布Kimi K2.6系列模型,宣称多项基准超越GPT-5.4与Claude Opus

中国人工智能公司月之暗面(Moonshot AI)近日正式推出其新一代大模型系列Kimi K2.6,并已在Kimi Chat对话平台及API接口上线。该系列模型的核心突破在于强化了长上下文编程能力与智能体(Agent)执行支持,旨在为开...

Read More
2026-04-20 talkingdev

OpenClaw的双面叙事:公众愿景与工程挑战并存,Anthropic携Claude Design进军设计领域

本周,Peter Steinberger的演讲揭示了OpenClaw项目呈现出的两种截然不同的叙事:一方面是鼓舞人心的公众愿景,另一方面则是工程师视角下对安全性与可扩展性挑战的严肃审视。与此同时,人工智能公司Anthropic正式推出...

Read More
2026-04-17 talkingdev

AI智能体Morphex深度进化:一年内自动提交数千PR,重构monday.com生产级单体架构

协作平台monday.com的工程团队近日披露了一项前沿技术实践:他们基于Anthropic的Claude Code SDK构建了一个名为Morphex的AI智能体,并将其直接部署在真实的生产代码库中进行了长达一年的“成长”实验。该智能体的核心...

Read More
2026-04-17 talkingdev

Codex全面升级:迈向全计算机自动化,重塑开发者工作流

OpenAI近日对Codex进行了重大更新,将其功能边界从代码生成扩展至近乎全栈的计算机自动化。新版Codex for macOS和Windows引入了后台计算机控制、多智能体工作流以及与开发者工具的深度集成,标志着其角色已覆盖软件...

Read More
2026-04-16 talkingdev

AI科学发现能力大考:艾伦AI研究所新基准揭示,顶尖智能体仍难匹敌人类科学家

在人工智能领域,众多团队宣称其研发的智能体具备卓越的科学发现能力,但支撑这些声明的证据往往难以令人信服。为客观评估AI在科学探索中的真实水平,艾伦人工智能研究所(AI2)开发并开源了两项关键基准测试:Scien...

Read More
  1. Prev Page
  2. 6
  3. 7
  4. 8
  5. Next Page