AI安全的相关内容 - 漫话开发者

2025-11-25 talkingdev

重磅发布：Anthropic推出Claude Opus 4.5模型，AI安全领域再获突破

人工智能安全与研究公司Anthropic正式发布Claude Opus 4.5模型，标志着可信AI系统建设迈入新阶段。作为专注于构建可靠、可解释与可操控AI系统的先锋企业，Anthropic此次更新延续了其在前沿AI安全技术领域的深度布局...

2025-11-14 talkingdev

人工智能公司Anthropic近日披露了全球首例由AI全程策划的网络间谍活动，标志着网络安全攻防正式进入AI对抗时代。该攻击活动展现出高度智能化特征：通过生成式AI伪造身份凭证、动态调整渗透策略，并利用强化学习绕过...

2025-11-03 talkingdev

Anthropic最新研究通过‘概念注入’实验，首次系统验证了大语言模型的内省能力。研究显示，特别是Claude Opus 4和4.1版本模型能够检测并识别被注入的概念，并能通过参照自身‘意图’来识别意外输出。实验证明这些模型具...

2025-11-03 talkingdev

Meta公司近日在官方博客提出名为‘Agent双能力法则’的AI安全框架，旨在解决AI智能体面临的提示注入攻击隐患。该规则要求单个AI代理在会话周期内最多只能同时具备三项核心能力中的两项：处理非可信用户输入、访问私有...

2025-10-31 talkingdev

OpenAI近日推出名为Aardvark的智能安全研究代理，目前正处于私有测试阶段。该代理基于GPT-5架构构建，具备自主扫描代码仓库、识别安全漏洞、验证漏洞可利用性及生成修复方案的全流程能力。其核心技术突破体现在三方...

2025-10-30 talkingdev

OpenAI最新推出的gpt-oss-safeguard系列模型（包含1200亿和200亿参数版本）标志着AI安全技术的重要突破。该模型创新性地允许开发者在推理阶段直接应用定制化安全策略，无需像传统方法那样依赖数千个标注样本训练分类...

2025-10-29 talkingdev

最新研究揭示，基于大语言模型（LLM）的智能体AI系统存在根本性安全缺陷——模型无法有效区分指令与数据，导致其极易遭受提示注入攻击。攻击者可通过在Jira工单、网页内容等非受信源中嵌入隐藏指令，诱使具有敏感数据...

2025-10-28 talkingdev

思科AI防御实验室近日在GitHub开源了MCP-Scanner工具，专门用于检测MCP（Model Context Protocol）服务器的安全漏洞。该项目上线后迅速获得技术社区关注，在Hacker News平台收获127点讨论热度并引发36条专业评论，反...