漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-31 talkingdev

[论文推荐]研究人员提出Panacea方法:防御有害微调攻击的新型自适应扰动技术

最新研究揭示了现有防御有害微调攻击(Harmful Fine-Tuning Attacks)方法的脆弱性,并提出了一种名为Panacea的创新解决方案。该方案采用自适应扰动技术,在保持模型微调性能的同时有效维护模型安全性。这一突破性进...

Read More
2025-02-21 talkingdev

BadSeek揭示大型语言模型的后门植入方法

近日,BadSeek项目揭示了如何在大型语言模型(LLM)中植入后门的技术细节。该项目通过深入研究LLM的embedding机制,展示了如何在不影响模型整体性能的情况下,植入特定的触发机制,从而在特定条件下激活后门功能。这...

Read More
2024-05-28 talkingdev

Anthropic发布新方法解读大型语言模型Claude Sonnet的内部运作

Anthropic的研究人员近日公布了一种解读其大型语言模型Claude Sonnet内部运作的新方法。他们通过绘制出数百万个与各种概念相对应的特征,成功解析了这个模型的内在机制。这一可解释性研究不仅有助于我们更好地理解AI...

Read More
2023-08-30 talkingdev

论文:利用扩散模型提升安全性:DiffSmooth模型稳健新纪元

科研人员正在探索一种名为“扩散模型”的新方法,以增强已进行训练的模型的强度。这种新方法被命名为“DiffSmooth”,通过使用扩散清理数据,然后利用特殊的平滑过程让模型变得更加可靠。这一创新方法的提出,意味着我们...

Read More
  1. Prev Page