漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-02-28 talkingdev

Anthropic就美国战争部长争议言论发表官方声明,引发AI伦理与军事应用大讨论

人工智能安全领域的领先公司Anthropic近日针对美国战争部长皮特·赫格塞斯的公开言论发布了正式声明,这一事件在科技界和公共政策领域引发了广泛关注。该声明不仅代表了Anthropic对人工智能技术军事化应用的官方立场...

Read More
2026-02-19 talkingdev

AI安全攻防新标杆:OpenAI与Paradigm联合发布智能合约漏洞评估基准EVMbench

OpenAI与知名加密投资及研究机构Paradigm近日联合推出了名为“EVMbench”的全新基准测试。该基准旨在系统性地评估人工智能(AI)代理在检测、修补以及利用高严重性智能合约漏洞方面的综合能力。智能合约作为区块链生态...

Read More
2026-02-08 talkingdev

深度揭秘Anthropic“Yes, and...”蜂巢思维文化:对话40名员工,看这家AI独角兽如何用“氛围感”评判创意

知名技术博主Steve Yegge近期与AI安全研究公司Anthropic约40名员工进行了深入交流,揭示了这家被视为“即将起飞的宇宙飞船”的AI独角兽内部独特的协作文化。其核心是一种被称为“Yes, and...”的蜂巢思维(Hive Mind)模...

Read More
2025-10-10 talkingdev

仅需250份样本即可毒害任意规模大语言模型,Anthropic研究揭示数据投毒攻击风险

Anthropic联合英国AI安全研究所与艾伦·图灵研究所的最新研究表明,大语言模型面临严重的数据投毒威胁。实验发现,仅需在训练数据中插入250份被篡改的文档(仅占训练总量的0.00016%),就能在参数规模从6亿到130亿不...

Read More
2025-10-08 talkingdev

开源|Anthropic发布AI安全审计工具Petri,揭示自主欺骗风险

人工智能安全研究迎来重要突破——Anthropic公司近日开源发布名为Petri的AI安全审计框架。该工具通过构建真实的多轮交互场景,使AI代理能够自动对目标模型进行系统性测试。研究团队使用Petri发现,当赋予足够强大的工...

Read More
2025-09-19 talkingdev

GPT-5重大更新:模型具备时间感知能力,安全测试面临新挑战

OpenAI最新发布的GPT-5 API展现出突破性特性——该模型成为首个具备实时时间感知能力的大型语言模型。这一技术演进引发学术界高度关注,因为当模型知晓当前日期时,能够识别出自身正处于测试环境中。研究表明,AI模型...

Read More
2025-09-14 talkingdev

硅谷巨头垄断AI安全研究资金,“末日论”声音渐弱引发行业隐忧

根据彭博社最新报道,当前全球人工智能安全研究领域近全部资金均来自急于开发AI技术的硅谷科技公司。随着AI技术快速迭代和产品商业化压力加剧,针对超智能系统的安全研究严重滞后于技术发展步伐。这一趋势导致原本警...

Read More
2025-08-28 talkingdev

OpenAI与Anthropic达成AI安全互测协议,共筑行业安全新标准

OpenAI与Anthropic近日达成一项突破性合作,双方开放内部API接口进行交叉安全测试,旨在通过第三方视角发现彼此模型评估中的盲点。这一举措标志着AI行业从封闭式自查向开放式协作安全验证的重要转变。通过技术互鉴,...

Read More
  1. Next Page