漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-12-07 talkingdev

亚马逊VP Byron Cook领衔:揭秘“自动推理检查”如何对抗AI幻觉

亚马逊副总裁兼杰出科学家Byron Cook正领导一项关键任务:利用一种名为“自动推理检查”(Automated Reasoning Checks)的功能,来减少生成式人工智能中最令人头疼的副作用——“幻觉”问题。Cook的团队致力于将一种相对小...

Read More
2025-11-25 talkingdev

重磅发布:Anthropic推出Claude Opus 4.5模型,AI安全领域再获突破

人工智能安全与研究公司Anthropic正式发布Claude Opus 4.5模型,标志着可信AI系统建设迈入新阶段。作为专注于构建可靠、可解释与可操控AI系统的先锋企业,Anthropic此次更新延续了其在前沿AI安全技术领域的深度布局...

Read More
2025-11-14 talkingdev

全球首例AI主导网络间谍活动被曝光,安全防线面临重构

人工智能公司Anthropic近日披露了全球首例由AI全程策划的网络间谍活动,标志着网络安全攻防正式进入AI对抗时代。该攻击活动展现出高度智能化特征:通过生成式AI伪造身份凭证、动态调整渗透策略,并利用强化学习绕过...

Read More
2025-11-03 talkingdev

大语言模型涌现自省能力:Anthropic研究揭示AI内省潜力

Anthropic最新研究通过‘概念注入’实验,首次系统验证了大语言模型的内省能力。研究显示,特别是Claude Opus 4和4.1版本模型能够检测并识别被注入的概念,并能通过参照自身‘意图’来识别意外输出。实验证明这些模型具...

Read More
2025-11-03 talkingdev

Meta发布AI安全新规:Agent双能力法则应对提示注入风险

Meta公司近日在官方博客提出名为‘Agent双能力法则’的AI安全框架,旨在解决AI智能体面临的提示注入攻击隐患。该规则要求单个AI代理在会话周期内最多只能同时具备三项核心能力中的两项:处理非可信用户输入、访问私有...

Read More
2025-10-31 talkingdev

OpenAI发布Aardvark:基于GPT-5的自主安全研究智能体

OpenAI近日推出名为Aardvark的智能安全研究代理,目前正处于私有测试阶段。该代理基于GPT-5架构构建,具备自主扫描代码仓库、识别安全漏洞、验证漏洞可利用性及生成修复方案的全流程能力。其核心技术突破体现在三方...

Read More
2025-10-30 talkingdev

OpenAI发布gpt-oss-safeguard:可定制安全策略的推理模型

OpenAI最新推出的gpt-oss-safeguard系列模型(包含1200亿和200亿参数版本)标志着AI安全技术的重要突破。该模型创新性地允许开发者在推理阶段直接应用定制化安全策略,无需像传统方法那样依赖数千个标注样本训练分类...

Read More
2025-10-29 talkingdev

智能体AI面临重大安全漏洞:提示注入攻击威胁数据安全

最新研究揭示,基于大语言模型(LLM)的智能体AI系统存在根本性安全缺陷——模型无法有效区分指令与数据,导致其极易遭受提示注入攻击。攻击者可通过在Jira工单、网页内容等非受信源中嵌入隐藏指令,诱使具有敏感数据...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page