漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-02-25 talkingdev

Claude Opus 4.6实现“智能产出比”突破,以更少算力解决更复杂任务

近日,一篇关于AI模型“智能产出比”的分析引发行业关注。该分析指出,评估AI模型性能不应仅关注其最终能解决多难的任务,更应关注模型为达到该性能水平所需的计算资源,即“智能产出比”。文章重点介绍了Anthropic公司...

Read More
2026-02-19 talkingdev

AI安全攻防新标杆:OpenAI与Paradigm联合发布智能合约漏洞评估基准EVMbench

OpenAI与知名加密投资及研究机构Paradigm近日联合推出了名为“EVMbench”的全新基准测试。该基准旨在系统性地评估人工智能(AI)代理在检测、修补以及利用高严重性智能合约漏洞方面的综合能力。智能合约作为区块链生态...

Read More
2026-02-13 talkingdev

Meta与Hugging Face推出OpenEnv框架:标准化AI智能体在真实环境中的评估

Meta与Hugging Face联合发布了开源框架OpenEnv,该框架旨在通过标准化的gym风格API和MCP工具接口,统一AI智能体与真实、有状态环境(如操作系统、应用程序)的交互方式。这一举措标志着AI智能体评估从封闭的模拟环境...

Read More
2026-02-12 talkingdev

智谱发布GLM-5:7540亿参数开源巨兽,引领智能体工程新范式

智谱AI正式发布了其新一代开源大模型GLM-5,该模型以MIT许可证开源,参数量达到惊人的7540亿,是前代GLM-4.7(3680亿参数)规模的两倍以上。在技术性能上,GLM-5在广泛的学术基准测试中相比GLM-4.7实现了显著提升,...

Read More
2026-02-11 talkingdev

开源|AIRS-Bench:Meta发布首个端到端AI研究能力基准,量化大模型代理的科研潜力

Meta(原Facebook)旗下研究团队近日在GitHub开源了AIRS-Bench基准测试框架,旨在系统性地量化大型语言模型(LLM)代理在真实世界人工智能研究任务中的端到端能力。该基准包含20个精心设计的机器学习研究任务,每个...

Read More
2026-02-09 talkingdev

专家观点:开源模型将永远无法追上闭源模型,但为何美国当下更需要它们?

近期,AI研究领域围绕开源与闭源模型的发展路径展开了激烈讨论。专家Nathan Lambert提出一个核心论断:开源模型在性能上可能永远无法完全追上闭源模型。这并非意味着开源模式失败,而是揭示了其独特的战略价值。闭源...

Read More
2026-02-06 talkingdev

Anthropic发布Claude Opus 4.6:智能体编码与复杂推理能力再升级

人工智能研究公司Anthropic正式发布了其旗舰模型Claude Opus的最新版本——Claude Opus 4.6。此次升级标志着大语言模型在专业应用领域的能力边界再次被拓展。该模型在智能体编码、计算机使用、工具调用、信息检索及金...

Read More
2026-02-06 talkingdev

Anthropic发布Claude Opus 4.6:旗舰模型全面升级,推理与编程能力再攀高峰

人工智能公司Anthropic正式发布了其旗舰模型Claude Opus的最新版本——Claude Opus 4.6。此次升级标志着大模型在智能体能力、任务持久性和复杂场景应用上取得了显著进步。该模型在智能体编码、计算机使用、工具调用、...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page