漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-01-07 talkingdev

AI安全新防线:深入解析AI沙盒技术的三大核心与四大方案

随着AI智能体(AI Agents)的广泛应用,执行不可信代码已成为常态,而沙盒技术正是保障系统安全的关键防线。一篇深度技术分析文章系统性地指出,构建一个有效的AI沙盒需要从三个核心维度进行考量:隔离边界、访问策...

Read More
2026-01-01 talkingdev

ExoPriors:面向智能爆炸研究的下一代搜索引擎,支持SQL与向量代数混合查询

近日,一个名为ExoPriors的专业搜索引擎引起了人工智能与前沿科技研究社区的关注。该平台专注于索引和检索与“智能爆炸”相关的研究文献,其数据源覆盖了arXiv预印本库、LessWrong理性社区论坛等学术与思想平台。ExoPr...

Read More
2025-12-22 talkingdev

开源Bloom工具:自动化评估AI模型行为,提升安全性与可解释性

Anthropic近日开源了名为Bloom的工具,这是一个专门用于对AI模型进行自动化行为评估的开源解决方案。该工具通过创建特定场景并量化不同模型中的行为发生率,能够系统性地评估如自我偏好偏见、蓄意破坏等具体行为模式...

Read More
2025-12-20 talkingdev

纽约州签署RAISE法案,AI安全监管再添一州,法案文本向加州SB 53看齐

纽约州州长凯西·霍楚于周五正式签署了《负责任人工智能安全法案》(RAISE Act),使之成为法律。此举标志着纽约州成为美国最新一个针对最先进人工智能模型制定广泛安全规则的州。值得注意的是,该法案在最终签署前,...

Read More
2025-12-09 talkingdev

OpenAI利用稀疏自编码器与潜在归因技术,精准调试语言模型对齐问题

OpenAI的研究团队近期在模型可解释性领域取得重要进展,通过结合稀疏自编码器与创新的潜在归因方法,系统性地定位和解决大型语言模型中的行为错位问题。该研究提出的归因方法能够有效识别稀疏自编码器潜在空间中导致...

Read More
2025-12-03 talkingdev

Perplexity推出BrowseSafe:为AI浏览器智能体构建实时防护盾,抵御提示注入攻击

人工智能研究公司Perplexity近日开源了其最新研究成果“BrowseSafe”,这是一个专门为保护AI浏览器智能体(AI Browser Agents)而设计的实时内容检测模型与基准测试套件。在开放世界的网页环境中,AI智能体在执行网页...

Read More
2025-11-25 talkingdev

重磅发布:Anthropic推出Claude Opus 4.5模型,AI安全领域再获突破

人工智能安全与研究公司Anthropic正式发布Claude Opus 4.5模型,标志着可信AI系统建设迈入新阶段。作为专注于构建可靠、可解释与可操控AI系统的先锋企业,Anthropic此次更新延续了其在前沿AI安全技术领域的深度布局...

Read More
2025-11-03 talkingdev

大语言模型涌现自省能力:Anthropic研究揭示AI内省潜力

Anthropic最新研究通过‘概念注入’实验,首次系统验证了大语言模型的内省能力。研究显示,特别是Claude Opus 4和4.1版本模型能够检测并识别被注入的概念,并能通过参照自身‘意图’来识别意外输出。实验证明这些模型具...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page