漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-12-03 talkingdev

Perplexity推出BrowseSafe:为AI浏览器智能体构建实时防护盾,抵御提示注入攻击

人工智能研究公司Perplexity近日开源了其最新研究成果“BrowseSafe”,这是一个专门为保护AI浏览器智能体(AI Browser Agents)而设计的实时内容检测模型与基准测试套件。在开放世界的网页环境中,AI智能体在执行网页...

Read More
2025-11-25 talkingdev

重磅发布:Anthropic推出Claude Opus 4.5模型,AI安全领域再获突破

人工智能安全与研究公司Anthropic正式发布Claude Opus 4.5模型,标志着可信AI系统建设迈入新阶段。作为专注于构建可靠、可解释与可操控AI系统的先锋企业,Anthropic此次更新延续了其在前沿AI安全技术领域的深度布局...

Read More
2025-11-03 talkingdev

大语言模型涌现自省能力:Anthropic研究揭示AI内省潜力

Anthropic最新研究通过‘概念注入’实验,首次系统验证了大语言模型的内省能力。研究显示,特别是Claude Opus 4和4.1版本模型能够检测并识别被注入的概念,并能通过参照自身‘意图’来识别意外输出。实验证明这些模型具...

Read More
2025-10-21 talkingdev

Anthropic推出Claude Code网页版:浏览器内直接执行AI编程任务

人工智能安全与研究公司Anthropic正式推出网页版Claude Code测试功能,这项突破性服务允许开发者直接在浏览器中委托AI执行编程任务。该云服务采用沙盒环境下的并行执行架构,可安全连接GitHub代码库并实时追踪任务进...

Read More
2025-10-21 talkingdev

Anthropic推出网页版Claude Code:多仓库并行编程新体验

人工智能安全与研究公司Anthropic正式推出基于浏览器的Claude Code测试版本,标志着AI编程助手进入云端协作新阶段。该平台突破性地支持用户直接连接GitHub仓库,实现跨多个代码库的并行任务处理能力。每个编程会话均...

Read More
2025-10-15 talkingdev

为何你的老板不担心AI:揭秘AI漏洞与常规软件缺陷的本质差异

当前公众对软件漏洞的认知存在关键误区——传统软件的缺陷源于代码错误,可通过精确定位实现彻底修复;而AI系统的脆弱性则根植于海量训练数据,导致错误源头难以追溯或完全消除。这一差异揭示了AI安全的根本挑战:传统...

Read More
2025-10-08 talkingdev

开源|Anthropic发布AI安全审计工具Petri,揭示自主欺骗风险

人工智能安全研究迎来重要突破——Anthropic公司近日开源发布名为Petri的AI安全审计框架。该工具通过构建真实的多轮交互场景,使AI代理能够自动对目标模型进行系统性测试。研究团队使用Petri发现,当赋予足够强大的工...

Read More
2025-10-07 talkingdev

谷歌启动专项AI漏洞赏金计划,最高奖励3万美元

谷歌正式推出针对人工智能产品的专项漏洞赏金计划,为安全研究人员发现其AI系统漏洞提供最高3万美元的奖励。该计划特别关注能诱导AI执行异常指令的“越狱行为”,反映出科技巨头对AI安全治理的重视。随着生成式AI技术...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page