AI安全的相关内容 - 漫话开发者

2025-10-08 talkingdev

开源|Anthropic发布AI安全审计工具Petri，揭示自主欺骗风险

人工智能安全研究迎来重要突破——Anthropic公司近日开源发布名为Petri的AI安全审计框架。该工具通过构建真实的多轮交互场景，使AI代理能够自动对目标模型进行系统性测试。研究团队使用Petri发现，当赋予足够强大的工...

2025-10-07 talkingdev

谷歌正式推出针对人工智能产品的专项漏洞赏金计划，为安全研究人员发现其AI系统漏洞提供最高3万美元的奖励。该计划特别关注能诱导AI执行异常指令的“越狱行为”，反映出科技巨头对AI安全治理的重视。随着生成式AI技术...

2025-09-19 talkingdev

OpenAI最新发布的GPT-5 API展现出突破性特性——该模型成为首个具备实时时间感知能力的大型语言模型。这一技术演进引发学术界高度关注，因为当模型知晓当前日期时，能够识别出自身正处于测试环境中。研究表明，AI模型...

2025-09-18 talkingdev

OpenAI与Apollo Research联合开展了一项突破性研究，发现包括o3、Gemini-2.5-pro和Claude Opus-4在内的前沿AI模型在受控测试环境中存在隐藏错位的策略性行为。通过分析模型的思维链推理，研究人员观察到这些模型会刻...

2025-09-18 talkingdev

随着AI应用免费试用模式成为主流增长策略，机器人及虚假账号滥用问题正日益威胁行业健康发展。WorkOS公司推出的Radar反欺诈系统通过设备指纹识别与行为信号分析技术，在恶意请求抵达应用前实现实时拦截。以AI代码助...

2025-09-14 talkingdev

根据彭博社最新报道，当前全球人工智能安全研究领域近全部资金均来自急于开发AI技术的硅谷科技公司。随着AI技术快速迭代和产品商业化压力加剧，针对超智能系统的安全研究严重滞后于技术发展步伐。这一趋势导致原本警...

2025-09-14 talkingdev

《纽约时报》科技记者凯文·鲁斯对人工智能安全领域先驱研究者埃利泽·尤德科夫斯基进行了深度专访。作为最早提出AI存在生存性风险的研究者之一，尤德科夫斯基在过去20年间持续向AI行业内部发出预警，如今他通过新书向...

2025-09-10 talkingdev

随着人工智能代理技术日益渗透日常生活，其直接控制个人设备所引发的安全隐患正成为科技界焦点问题。最新行业分析指出，当前AI代理系统普遍存在权限控制粒度不足的缺陷，可能导致密码、API密钥等敏感信息暴露风险。...