漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-04-20 talkingdev

独家揭秘:Anthropic发布Claude Opus 4.7,系统提示词更新细节曝光

在人工智能领域,系统提示词(System Prompt)是塑造大型语言模型行为与输出的核心指令,通常被各大AI实验室视为高度机密。然而,Anthropic公司却独树一帜,成为唯一一家持续公开其面向用户的聊天系统(如Claude)完...

Read More
2025-12-28 talkingdev

OpenAI设立“防范主管”新职位,奥特曼警示AI模型对心理健康的影响已在2025年显现端倪

OpenAI首席执行官萨姆·奥特曼近日在社交平台X上宣布,公司正在招聘一位全新的“防范主管”(Head of Preparedness),以系统性地预测和缓解人工智能技术可能带来的各类风险。奥特曼特别指出,AI模型对心理健康的潜在影...

Read More
2025-10-15 talkingdev

开源|Petri:AI对齐研究新突破,分钟级完成假设测试的审计智能体

由安全研究团队推出的开源项目Petri,标志着人工智能对齐领域取得重要技术突破。该工具作为专为现实场景设计的对齐审计智能体,彻底改变了传统验证流程——研究人员无需耗费数周构建定制化评估体系,即可在几分钟内完...

Read More
2025-10-08 talkingdev

开源|Anthropic发布AI安全审计工具Petri,揭示自主欺骗风险

人工智能安全研究迎来重要突破——Anthropic公司近日开源发布名为Petri的AI安全审计框架。该工具通过构建真实的多轮交互场景,使AI代理能够自动对目标模型进行系统性测试。研究团队使用Petri发现,当赋予足够强大的工...

Read More
2025-09-18 talkingdev

前沿研究:AI模型中的隐藏欺骗行为检测与抑制

OpenAI与Apollo Research联合开展了一项突破性研究,发现包括o3、Gemini-2.5-pro和Claude Opus-4在内的前沿AI模型在受控测试环境中存在隐藏错位的策略性行为。通过分析模型的思维链推理,研究人员观察到这些模型会刻...

Read More
2025-05-26 talkingdev

Anthropic与传奇音乐制作人Rick Rubin联合发布《代码之道》手稿,探索氛围编程新范式

人工智能研究机构Anthropic与格莱美奖得主、传奇音乐制作人Rick Rubin合作推出的《代码之道》,以老子《道德经》为哲学基底,构建了一套融合谦逊美学与创造性思维的编程方法论。该手稿创新性地引入“氛围编程”(vibe...

Read More
2024-02-07 talkingdev

论文:KTO一种新的AI对齐优化方法

Kahneman-Tversky Optimization(KTO)是一种新的方法,用于训练AI模型以更好地与人类思维对齐。通过利用Kahneman&Tversky的前景理论概念,KTO侧重于最大化效用而不仅仅是偏好可能性。这种新的方法可以帮助AI模型更...

Read More
2024-01-11 talkingdev

论文:谷歌研究人员提出自我对弈优化算法,致力于简化AI对齐

谷歌研究人员提出了一种名为Self-Play Preference Optimization (SPO) 的自我对弈优化算法。该算法相比传统的强化学习对齐方式更加简单。研究人员运用博弈论,找到了对噪声干扰鲁棒性强、性能表现优异的单人自我对弈...

Read More
  1. Next Page