AI安全的相关内容 - 漫话开发者

2026-07-12 talkingdev

Anthropic提出GRAM方法：为AI模型内的双用途知识装上可关闭的“开关”

AI模型在学习过程中不可避免地会掌握大量“双用途知识”——既能用于网络防御、漏洞检测等正面场景，也可能被用于网络攻击和信息窃取等恶意目的。如何在不削弱模型整体能力的前提下，精准管控这类敏感知识，一直是AI安全...

2026-06-27 talkingdev

OpenAI 正式对外预览了其下一代旗舰模型——GPT-5.6 Sol。这一模型不仅在编程、科学研究和网络安全等关键领域展现出显著增强的能力，更引人关注的是，它首次搭载了OpenAI迄今最先进的安全栈。从技术层面看，GPT-5.6 So...

2026-06-26 talkingdev

据TechCrunch报道，美国白宫已向OpenAI发出正式行政请求，要求其延迟向公众发布下一代前沿模型GPT-5.6。这一决定源于对国家安全及模型结构性安全隐患的担忧。政府安全官员希望延长AI系统的“红队测试”窗口期，以便对...

2026-06-19 talkingdev

随着AI智能体在多个行业的渗透率持续攀升，其潜在经济价值正引起广泛关注。据预测，到2030年，仅在美国，AI智能体就能创造高达2.9万亿美元的经济价值。然而，随着模型能力越来越强，传统的对齐技术（Alignment）已难...

2026-06-14 talkingdev

据Politico报道，美国官员透露，特朗普政府决定对人工智能公司Anthropic实施出口管制，这一决定是在Anthropic首席执行官Dario Amodei与政府官员进行多次紧张通话后做出的。出口管制迫使Anthropic在公开发布其新AI模...

2026-06-13 talkingdev

知名人工智能公司Anthropic近日发布声明称，已按照美国政府基于国家安全授权发布的出口管制指令，全面停止向所有客户提供其大语言模型Fable 5和Mythos 5的访问权限。这意味着这两款在AI领域引发广泛关注的前沿模型将...

2026-06-10 talkingdev

Anthropic近日正式推出了两款全新的模型：Claude Fable 5和Claude Mythos 5。其中，Claude Fable 5是一款经过安全适配、面向大众场景的“Mythos级”模型，标志着Anthropic在强化模型能力与可控性之间取得了关键平衡。...

2026-06-09 talkingdev

OpenAI首席执行官Sam Altman与研究负责人Jakub Pachocki联合发布了一项新的战略规划，明确提出公司已进入发展的“第三阶段”。该规划的核心目标包括：构建自动化的AI研究员、在加速经济增长的同时确保收益广泛共享，以...