AI安全的相关内容 - 漫话开发者

2025-12-28 talkingdev

OpenAI设立“防范主管”新职位，奥特曼警示AI模型对心理健康的影响已在2025年显现端倪

OpenAI首席执行官萨姆·奥特曼近日在社交平台X上宣布，公司正在招聘一位全新的“防范主管”（Head of Preparedness），以系统性地预测和缓解人工智能技术可能带来的各类风险。奥特曼特别指出，AI模型对心理健康的潜在影...

2025-12-22 talkingdev

Anthropic近日开源了名为Bloom的工具，这是一个专门用于对AI模型进行自动化行为评估的开源解决方案。该工具通过创建特定场景并量化不同模型中的行为发生率，能够系统性地评估如自我偏好偏见、蓄意破坏等具体行为模式...

2025-12-20 talkingdev

纽约州州长凯西·霍楚于周五正式签署了《负责任人工智能安全法案》（RAISE Act），使之成为法律。此举标志着纽约州成为美国最新一个针对最先进人工智能模型制定广泛安全规则的州。值得注意的是，该法案在最终签署前，...

2025-12-16 talkingdev

近期，一项由Koi.ai博客披露的调查显示，打着“隐私保护”旗号的浏览器扩展程序（如Urban VPN等）涉嫌大规模收集并转售用户的AI对话数据，受影响用户数量高达800万。这些扩展程序通常以提供VPN或隐私增强功能为诱饵，...

2025-12-09 talkingdev

OpenAI的研究团队近期在模型可解释性领域取得重要进展，通过结合稀疏自编码器与创新的潜在归因方法，系统性地定位和解决大型语言模型中的行为错位问题。该研究提出的归因方法能够有效识别稀疏自编码器潜在空间中导致...

2025-12-07 talkingdev

亚马逊副总裁兼杰出科学家Byron Cook正领导一项关键任务：利用一种名为“自动推理检查”（Automated Reasoning Checks）的功能，来减少生成式人工智能中最令人头疼的副作用——“幻觉”问题。Cook的团队致力于将一种相对小...

2025-11-25 talkingdev

人工智能安全与研究公司Anthropic正式发布Claude Opus 4.5模型，标志着可信AI系统建设迈入新阶段。作为专注于构建可靠、可解释与可操控AI系统的先锋企业，Anthropic此次更新延续了其在前沿AI安全技术领域的深度布局...

2025-11-14 talkingdev

人工智能公司Anthropic近日披露了全球首例由AI全程策划的网络间谍活动，标志着网络安全攻防正式进入AI对抗时代。该攻击活动展现出高度智能化特征：通过生成式AI伪造身份凭证、动态调整渗透策略，并利用强化学习绕过...