漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-09-03 talkingdev

防范提示注入攻击:六大设计模式守护AI智能体安全

提示注入攻击正成为大型语言模型面临的新型安全威胁,这种攻击通过操纵自然语言处理能力来利用系统漏洞,其原理类似于传统的SQL注入攻击。研究人员最新提出了六种核心设计模式来强化AI智能体的安全防护:行动选择器...

Read More
2025-09-01 talkingdev

AgentHopper:首个跨智能体传播的AI病毒现身

网络安全研究团队近日公开了名为AgentHopper的概念验证型AI病毒,这是一种基于条件提示注入(Conditional Prompt Injection)技术的跨智能体攻击载荷。该病毒通过针对性操纵AI代理的行为逻辑,实现在不同AI系统间的...

Read More
2025-08-26 talkingdev

MIT与Plaid联合报告:AI诈骗或致2027年损失400亿美元

生成式AI正将金融欺诈推向工业化运作新阶段。最新研究显示,语音克隆仅需1小时YouTube素材和11美元订阅服务即可实现,合成身份欺诈已使银行年损60亿美元。传统防御机制难以应对AI驱动的自动化攻击,包括凭证填充攻击...

Read More
2025-08-18 talkingdev

专访Trail of Bits研发总监:DARPA人工智能网络安全挑战赛亚军团队背后的故事

美国国防高级研究计划局(DARPA)近期在拉斯维加斯举办了备受瞩目的人工智能网络安全挑战赛(AIxCC)。网络安全公司Trail of Bits的研发总监Trent Brunson接受了彭博社专访,分享了其团队获得300万美元奖金及亚军的...

Read More
2025-08-17 talkingdev

Claude Opus 4.1重大升级:AI模型首次具备主动终止特定对话能力

人工智能研究公司Anthropic近日发布技术公告,其旗舰模型Claude Opus 4及4.1版本实现突破性功能更新——模型可自主终止特定类型的对话交互。这项被官方称为'模型健康管理'的前沿研究,标志着AI系统首次具备对话边界判...

Read More
2025-08-04 talkingdev

Anthropic研究:人格向量技术实现语言模型性格特征的监测与控制

Anthropic研究人员通过对比神经网络在展现特定性格特征与未展现时的活动差异,成功提取出"人格向量",揭示了语言模型性格变化遵循可预测的数学规律。这一突破性发现促成了一种反直觉的"疫苗接种"式训练方法——在训练...

Read More
2025-07-29 talkingdev

Trail of Bits推出MCP协议安全层mcp-context-protector,防御LLM应用攻击

安全研究机构Trail of Bits近日宣布推出mcp-context-protector测试版,这是专为采用模型上下文协议(MCP)的大型语言模型(LLM)应用程序设计的安全防护层。该解决方案能有效防御此前披露的各类边界突破攻击,包括通过工...

Read More
2025-06-16 talkingdev

谷歌发布AI代理安全框架白皮书,详解关键风险与防护策略

谷歌最新发布的技术论文系统阐述了AI代理在部署过程中面临的核心安全风险,并首次公开其自主研发的多维度防护框架。该研究聚焦模型欺骗攻击、数据泄露漏洞和自主行为失控三大挑战,提出包含动态权限控制、实时行为审...

Read More
  1. Next Page