漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-04-16 talkingdev

AI科学发现能力大考:艾伦AI研究所新基准揭示,顶尖智能体仍难匹敌人类科学家

在人工智能领域,众多团队宣称其研发的智能体具备卓越的科学发现能力,但支撑这些声明的证据往往难以令人信服。为客观评估AI在科学探索中的真实水平,艾伦人工智能研究所(AI2)开发并开源了两项关键基准测试:Scien...

Read More
2026-04-03 talkingdev

谷歌DeepMind发布Gemma 4:基于Gemma 3技术构建,支持140种语言的多模态推理

谷歌DeepMind近日正式发布了Gemma 4系列开源模型,标志着其在开放人工智能模型领域迈出了重要一步。该系列模型基于其旗舰Gemma 3技术构建,核心优化方向是“单位参数智能效率”,即在保持模型参数规模相对可控的同时,...

Read More
2026-03-24 talkingdev

AI攻克前沿数学难题:GPT-5.4 Pro成功解决超图拉姆齐问题

人工智能研究机构Epoch近日发布报告,确认其最新模型GPT-5.4 Pro成功解决了一个长期悬而未决的前沿数学开放问题——超图上的拉姆齐风格问题。该问题属于组合数学的核心领域,要求构造尽可能大的超图,使其不具备某个易...

Read More
2026-03-16 talkingdev

突破性研究:Transformer能否成为通用计算机?Percepta展示在模型内部执行C程序

人工智能研究机构Percepta近期发布了一项前沿研究成果,探讨了大型语言模型(LLMs)作为通用计算设备的可能性。该研究成功在Transformer架构内部构建了一个“计算机”,能够高效执行任意的C语言程序,并运行数百万个计...

Read More
2026-03-10 talkingdev

Anthropic推出Claude Code Review:AI代码审查工具应对AI生成代码风险

随着AI生成代码的广泛应用,新的逻辑缺陷和安全漏洞也随之涌现,给软件开发质量带来了前所未有的挑战。为应对这一行业痛点,人工智能研究公司Anthropic正式推出了Claude Code Review工具。该工具深度集成于其Claude...

Read More
2026-03-06 talkingdev

OpenAI发布GPT-5.4:专为专业工作设计的最强前沿模型,原生支持跨应用操作

人工智能研究机构OpenAI正式发布了其最新的前沿模型GPT-5.4,该模型被定位为专为专业工作场景设计的、目前能力最强且最高效的版本。GPT-5.4现已通过ChatGPT、API以及Codex平台向用户开放。此次更新的核心在于显著提...

Read More
2026-02-11 talkingdev

开源|AIRS-Bench:Meta发布首个端到端AI研究能力基准,量化大模型代理的科研潜力

Meta(原Facebook)旗下研究团队近日在GitHub开源了AIRS-Bench基准测试框架,旨在系统性地量化大型语言模型(LLM)代理在真实世界人工智能研究任务中的端到端能力。该基准包含20个精心设计的机器学习研究任务,每个...

Read More
2026-02-06 talkingdev

Anthropic发布Claude Opus 4.6:智能体编码与复杂推理能力再升级

人工智能研究公司Anthropic正式发布了其旗舰模型Claude Opus的最新版本——Claude Opus 4.6。此次升级标志着大语言模型在专业应用领域的能力边界再次被拓展。该模型在智能体编码、计算机使用、工具调用、信息检索及金...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page