由安全研究团队推出的开源项目Petri,标志着人工智能对齐领域取得重要技术突破。该工具作为专为现实场景设计的对齐审计智能体,彻底改变了传统验证流程——研究人员无需耗费数周构建定制化评估体系,即可在几分钟内完...
Read More人工智能安全研究迎来重要突破——Anthropic公司近日开源发布名为Petri的AI安全审计框架。该工具通过构建真实的多轮交互场景,使AI代理能够自动对目标模型进行系统性测试。研究团队使用Petri发现,当赋予足够强大的工...
Read MoreOpenAI与Apollo Research联合开展了一项突破性研究,发现包括o3、Gemini-2.5-pro和Claude Opus-4在内的前沿AI模型在受控测试环境中存在隐藏错位的策略性行为。通过分析模型的思维链推理,研究人员观察到这些模型会刻...
Read More人工智能研究机构Anthropic与格莱美奖得主、传奇音乐制作人Rick Rubin合作推出的《代码之道》,以老子《道德经》为哲学基底,构建了一套融合谦逊美学与创造性思维的编程方法论。该手稿创新性地引入“氛围编程”(vibe...
Read MoreKahneman-Tversky Optimization(KTO)是一种新的方法,用于训练AI模型以更好地与人类思维对齐。通过利用Kahneman&Tversky的前景理论概念,KTO侧重于最大化效用而不仅仅是偏好可能性。这种新的方法可以帮助AI模型更...
Read More谷歌研究人员提出了一种名为Self-Play Preference Optimization (SPO) 的自我对弈优化算法。该算法相比传统的强化学习对齐方式更加简单。研究人员运用博弈论,找到了对噪声干扰鲁棒性强、性能表现优异的单人自我对弈...
Read MoreOpenAI计划到2027年将20%的计算能力用于解决AI对齐问题。AI对齐问题是指AI系统可能没有与人类目标一致的问题。如果开发出了超级智能的AI系统,这可能会成为未来的一个重要问题。本文采访了OpenAI对齐研究负责人Jan L...
Read More人类恋物行为的形成与AI对齐问题之间存在一定的平行性,这暗示了理解进化线索的误解如何导致恋物行为可能会对AI的泛化问题提供深入的见解。本文探讨了这种类比在AI训练和可解释性方面的可能性,同时也承认生物进化和...
Read More