AI对齐的相关内容 - 漫话开发者

2026-04-20 talkingdev

独家揭秘：Anthropic发布Claude Opus 4.7，系统提示词更新细节曝光

在人工智能领域，系统提示词（System Prompt）是塑造大型语言模型行为与输出的核心指令，通常被各大AI实验室视为高度机密。然而，Anthropic公司却独树一帜，成为唯一一家持续公开其面向用户的聊天系统（如Claude）完...

2025-12-28 talkingdev

OpenAI首席执行官萨姆·奥特曼近日在社交平台X上宣布，公司正在招聘一位全新的“防范主管”（Head of Preparedness），以系统性地预测和缓解人工智能技术可能带来的各类风险。奥特曼特别指出，AI模型对心理健康的潜在影...

2025-10-15 talkingdev

由安全研究团队推出的开源项目Petri，标志着人工智能对齐领域取得重要技术突破。该工具作为专为现实场景设计的对齐审计智能体，彻底改变了传统验证流程——研究人员无需耗费数周构建定制化评估体系，即可在几分钟内完...

2025-10-08 talkingdev

人工智能安全研究迎来重要突破——Anthropic公司近日开源发布名为Petri的AI安全审计框架。该工具通过构建真实的多轮交互场景，使AI代理能够自动对目标模型进行系统性测试。研究团队使用Petri发现，当赋予足够强大的工...

2025-09-18 talkingdev

OpenAI与Apollo Research联合开展了一项突破性研究，发现包括o3、Gemini-2.5-pro和Claude Opus-4在内的前沿AI模型在受控测试环境中存在隐藏错位的策略性行为。通过分析模型的思维链推理，研究人员观察到这些模型会刻...

2025-05-26 talkingdev

人工智能研究机构Anthropic与格莱美奖得主、传奇音乐制作人Rick Rubin合作推出的《代码之道》，以老子《道德经》为哲学基底，构建了一套融合谦逊美学与创造性思维的编程方法论。该手稿创新性地引入“氛围编程”（vibe...

2024-02-07 talkingdev

Kahneman-Tversky Optimization（KTO）是一种新的方法，用于训练AI模型以更好地与人类思维对齐。通过利用Kahneman＆Tversky的前景理论概念，KTO侧重于最大化效用而不仅仅是偏好可能性。这种新的方法可以帮助AI模型更...

2024-01-11 talkingdev

谷歌研究人员提出了一种名为Self-Play Preference Optimization (SPO) 的自我对弈优化算法。该算法相比传统的强化学习对齐方式更加简单。研究人员运用博弈论，找到了对噪声干扰鲁棒性强、性能表现优异的单人自我对弈...