AI安全研究的相关内容 - 漫话开发者

2026-06-13 talkingdev

美国以国家安全为由发布出口管制令，Anthropic宣布全面禁用Fable 5与Mythos 5模型

知名人工智能公司Anthropic近日发布声明称，已按照美国政府基于国家安全授权发布的出口管制指令，全面停止向所有客户提供其大语言模型Fable 5和Mythos 5的访问权限。这意味着这两款在AI领域引发广泛关注的前沿模型将...

2026-02-28 talkingdev

人工智能安全领域的领先公司Anthropic近日针对美国战争部长皮特·赫格塞斯的公开言论发布了正式声明，这一事件在科技界和公共政策领域引发了广泛关注。该声明不仅代表了Anthropic对人工智能技术军事化应用的官方立场...

2026-02-19 talkingdev

OpenAI与知名加密投资及研究机构Paradigm近日联合推出了名为“EVMbench”的全新基准测试。该基准旨在系统性地评估人工智能（AI）代理在检测、修补以及利用高严重性智能合约漏洞方面的综合能力。智能合约作为区块链生态...

2026-02-08 talkingdev

知名技术博主Steve Yegge近期与AI安全研究公司Anthropic约40名员工进行了深入交流，揭示了这家被视为“即将起飞的宇宙飞船”的AI独角兽内部独特的协作文化。其核心是一种被称为“Yes, and...”的蜂巢思维（Hive Mind）模...

2025-10-10 talkingdev

Anthropic联合英国AI安全研究所与艾伦·图灵研究所的最新研究表明，大语言模型面临严重的数据投毒威胁。实验发现，仅需在训练数据中插入250份被篡改的文档（仅占训练总量的0.00016%），就能在参数规模从6亿到130亿不...

2025-10-08 talkingdev

人工智能安全研究迎来重要突破——Anthropic公司近日开源发布名为Petri的AI安全审计框架。该工具通过构建真实的多轮交互场景，使AI代理能够自动对目标模型进行系统性测试。研究团队使用Petri发现，当赋予足够强大的工...

2025-09-19 talkingdev

OpenAI最新发布的GPT-5 API展现出突破性特性——该模型成为首个具备实时时间感知能力的大型语言模型。这一技术演进引发学术界高度关注，因为当模型知晓当前日期时，能够识别出自身正处于测试环境中。研究表明，AI模型...

2025-09-14 talkingdev

根据彭博社最新报道，当前全球人工智能安全研究领域近全部资金均来自急于开发AI技术的硅谷科技公司。随着AI技术快速迭代和产品商业化压力加剧，针对超智能系统的安全研究严重滞后于技术发展步伐。这一趋势导致原本警...