AI安全研究的相关内容 - 漫话开发者

2026-02-28 talkingdev

Anthropic就美国战争部长争议言论发表官方声明，引发AI伦理与军事应用大讨论

人工智能安全领域的领先公司Anthropic近日针对美国战争部长皮特·赫格塞斯的公开言论发布了正式声明，这一事件在科技界和公共政策领域引发了广泛关注。该声明不仅代表了Anthropic对人工智能技术军事化应用的官方立场...

2026-02-19 talkingdev

OpenAI与知名加密投资及研究机构Paradigm近日联合推出了名为“EVMbench”的全新基准测试。该基准旨在系统性地评估人工智能（AI）代理在检测、修补以及利用高严重性智能合约漏洞方面的综合能力。智能合约作为区块链生态...

2026-02-08 talkingdev

知名技术博主Steve Yegge近期与AI安全研究公司Anthropic约40名员工进行了深入交流，揭示了这家被视为“即将起飞的宇宙飞船”的AI独角兽内部独特的协作文化。其核心是一种被称为“Yes, and...”的蜂巢思维（Hive Mind）模...

2025-10-10 talkingdev

Anthropic联合英国AI安全研究所与艾伦·图灵研究所的最新研究表明，大语言模型面临严重的数据投毒威胁。实验发现，仅需在训练数据中插入250份被篡改的文档（仅占训练总量的0.00016%），就能在参数规模从6亿到130亿不...

2025-10-08 talkingdev

人工智能安全研究迎来重要突破——Anthropic公司近日开源发布名为Petri的AI安全审计框架。该工具通过构建真实的多轮交互场景，使AI代理能够自动对目标模型进行系统性测试。研究团队使用Petri发现，当赋予足够强大的工...

2025-09-19 talkingdev

OpenAI最新发布的GPT-5 API展现出突破性特性——该模型成为首个具备实时时间感知能力的大型语言模型。这一技术演进引发学术界高度关注，因为当模型知晓当前日期时，能够识别出自身正处于测试环境中。研究表明，AI模型...

2025-09-14 talkingdev

根据彭博社最新报道，当前全球人工智能安全研究领域近全部资金均来自急于开发AI技术的硅谷科技公司。随着AI技术快速迭代和产品商业化压力加剧，针对超智能系统的安全研究严重滞后于技术发展步伐。这一趋势导致原本警...

2025-08-28 talkingdev

OpenAI与Anthropic近日达成一项突破性合作，双方开放内部API接口进行交叉安全测试，旨在通过第三方视角发现彼此模型评估中的盲点。这一举措标志着AI行业从封闭式自查向开放式协作安全验证的重要转变。通过技术互鉴，...