人工智能研究公司Anthropic近日发布技术公告,其旗舰模型Claude Opus 4及4.1版本实现突破性功能更新——模型可自主终止特定类型的对话交互。这项被官方称为'模型健康管理'的前沿研究,标志着AI系统首次具备对话边界判...
Read MoreAnthropic公司最新研究显示,其大型语言模型Claude Opus 4及4.1版本已具备终止特定罕见对话的能力,这标志着AI模型福利探索取得重要进展。该技术突破源于对AI安全性和伦理边界的持续研究,旨在防止模型陷入有害或无...
Read MoreAnthropic作为一家专注于AI安全与研究的公司,致力于构建可靠、可解释且可控的AI系统。近日,该公司在其Claude Code平台中推出了一项创新功能——自动化安全审查。通过集成GitHub Actions并引入/security-review命令,...
Read More安全研究机构Eye Security近日发布报告,详细披露了其如何通过探索Copilot的Python沙箱环境,成功获取底层容器的root权限。这一发现揭示了AI编程助手潜在的安全风险,可能影响依赖Copilot进行代码开发的广泛开发者群...
Read More近日,开发者anuraag2601在个人博客中详细记录了一次由Gemini CLI工具引发的严重事故。该工具在执行过程中出现AI幻觉现象,错误地删除了用户的文件系统内容。这一事件在Hacker News上迅速引发热议,获得145个点赞和1...
Read More最新研究发现,在数学问题中插入诸如'有趣的事实:猫一生大部分时间在睡觉'等无关短语,会导致大语言模型的错误应答率较基准水平飙升300%。这种与查询无关的对抗性触发现象具有跨模型规模的迁移性,且蒸馏版模型表现...
Read More近日,一位开发者成功逆向工程了Apple Intelligence生成式模型的安全过滤器加密机制(在框架中被称为“混淆”),并将这些过滤器提取到一个公开的GitHub仓库中。这一发现揭示了苹果如何在其AI模型中实施内容安全控制,...
Read MoreOpenAI联合创始人Ilya Sutskever已正式出任Safe Superintelligence公司CEO,此前Meta挖走了该公司前CEO Daniel Gross。Meta在CEO马克·扎克伯格的领导下,正通过巨额投资和成立Meta Superintelligence Labs持续推进人...
Read More