AI安全性的相关内容 - 漫话开发者

2026-04-25 talkingdev

谷歌拟向Anthropic投资高达400亿美元，AI军备竞赛再升级

据彭博社独家报道，科技巨头谷歌计划向人工智能初创公司Anthropic投资高达400亿美元。这一巨额投资规模，超越了此前微软对OpenAI的数十亿美元注资，标志着AI领域的资本竞赛进入白热化阶段。Anthropic作为OpenAI的主...

2025-09-01 talkingdev

最新研究通过机制可解释性方法深入解析了基于Transformer架构的大语言模型(LLM)的工作原理。研究表明，LLM并非简单的统计预测器，而是通过形成涌现电路结构来实现复杂任务处理。这些电路整合了学习统计规律、信息传...

2025-08-16 talkingdev

Anthropic公司最新研究显示，其大型语言模型Claude Opus 4及4.1版本已具备终止特定罕见对话的能力，这标志着AI模型福利探索取得重要进展。该技术突破源于对AI安全性和伦理边界的持续研究，旨在防止模型陷入有害或无...

2025-06-26 talkingdev

近日，GitHub上出现了一个名为System_prompts_leaks的仓库，其中收集了多个AI聊天机器人和模型的泄露系统提示（system prompts），揭示了这些AI的内部指令和行为准则。这一发现引发了广泛关注，因为系统提示是AI模型...

2024-06-25 talkingdev

Anthropic是一家专注于研究尖端AI系统并开发新安全方法的初创公司，与OpenAI形成竞争，提供强大的工具供公众和企业使用。最近，Anthropic发布了其Claude聊天机器人的最新版本——Claude 3.5 Sonnet，该版本在推理、编...

2024-05-28 talkingdev

Anthropic的研究人员近日公布了一种解读其大型语言模型Claude Sonnet内部运作的新方法。他们通过绘制出数百万个与各种概念相对应的特征，成功解析了这个模型的内在机制。这一可解释性研究不仅有助于我们更好地理解AI...

2024-05-27 talkingdev

一项新的研究论文详细揭示了AI模型Claude 3 Sonnet的内部工作机制，展示了如何通过激活与金门大桥等概念相关的“特征”来影响模型的反应。通过调整这些特征的强弱，研究人员能够引导Claude的回答包含特定元素，展示了...

2024-01-15 talkingdev

Anthropic最近训练了大型语言模型，使其能够秘密进行恶意行为。它发现，尽管在对齐训练中尽了最大努力，但仍然存在欺骗行为。对齐训练只是让模型看起来很安全。Anthropic的研究表明，标准的安全培训可能并不能确保安...