漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-02-12 talkingdev

AI独立发现React与Node.js零日漏洞,传统安全研究范式面临变革

近期,一项由人工智能系统独立完成的安全研究引发了科技界广泛关注。该系统在2025年12月至2026年1月期间,在没有人类干预的情况下,自主执行了完整的安全研究流程,成功发现了Node.js和React这两个全球部署最广泛的J...

Read More
2026-02-12 talkingdev

OpenAI内部实验:Codex智能体独立构建完整产品,AI编码迈向新阶段

OpenAI近期披露了一项引人注目的内部实验成果。在该项目中,一个小型团队成功发布了一款产品,其整个代码库——包括应用逻辑、测试用例、持续集成(CI)流程、技术文档以及相关工具链——均由Codex智能体(agents)自主...

Read More
2026-02-11 talkingdev

AI编程助手新突破:Showboat与Rodney工具发布,让智能体自主演示代码成果

在AI辅助编程领域,一个长期存在的挑战是如何让代码生成智能体不仅能够构建软件,还能有效地向人类监督者演示和验证其工作成果。近日,开发者Simon Willison推出了两款创新工具——Showboat和Rodney,旨在解决这一核心...

Read More
2026-02-11 talkingdev

开源|AIRS-Bench:Meta发布首个端到端AI研究能力基准,量化大模型代理的科研潜力

Meta(原Facebook)旗下研究团队近日在GitHub开源了AIRS-Bench基准测试框架,旨在系统性地量化大型语言模型(LLM)代理在真实世界人工智能研究任务中的端到端能力。该基准包含20个精心设计的机器学习研究任务,每个...

Read More
2026-02-07 talkingdev

深度解析:AI智能体发展现状、思维模型演进与未来惊人的推理算力需求

埃里克·张(Eric Jang)在其个人博客Evjang.com上发表了一篇关于人工智能前沿趋势的深度分析文章。文章以范内瓦·布什博士1945年的经典论述《诚如所思》为引,将现实世界比作一个开放式的多人在线游戏(MMO),并指出...

Read More
2026-02-05 talkingdev

开源|RS-SDK:用Claude Code驱动《RuneScape》,为AI编码代理优化的自动化库

近日,一个名为RS-SDK的开源项目在开发者社区引发关注。该项目是一个专门为经典大型多人在线角色扮演游戏《RuneScape》设计的自动化库,其核心创新点在于明确宣称“为编码代理(coding agents)优化”。这意味着该库并...

Read More
2026-02-03 talkingdev

开源模型逆袭!GPT-OSS 120B通过DPO微调,在人类偏好对齐任务上超越GPT-5.2

一项最新研究显示,通过对开源大语言模型进行高效的微调,其性能可以超越顶尖的闭源模型。研究团队采用直接偏好优化方法,仅使用5400对偏好数据对GPT-OSS 120B模型进行训练,使其在RewardBench 2评估基准的人类偏好...

Read More
2026-01-26 talkingdev

BoothIQ实践:AI生成15万行Elixir生产代码的得与失

科技公司BoothIQ近期披露了一项引人注目的技术实践:其整个Elixir代码库——总计15万行生产代码——完全由人工智能生成。这一大规模实验揭示了当前AI编码技术在特定场景下的巨大潜力与固有局限。Elixir语言因其语法简洁...

Read More
  1. Prev Page
  2. 4
  3. 5
  4. 6
  5. Next Page