模型安全性的相关内容 - 漫话开发者

2025-03-31 talkingdev

[论文推荐]研究人员提出Panacea方法：防御有害微调攻击的新型自适应扰动技术

最新研究揭示了现有防御有害微调攻击（Harmful Fine-Tuning Attacks）方法的脆弱性，并提出了一种名为Panacea的创新解决方案。该方案采用自适应扰动技术，在保持模型微调性能的同时有效维护模型安全性。这一突破性进...

2023-08-30 talkingdev

科研人员正在探索一种名为“扩散模型”的新方法，以增强已进行训练的模型的强度。这种新方法被命名为“DiffSmooth”，通过使用扩散清理数据，然后利用特殊的平滑过程让模型变得更加可靠。这一创新方法的提出，意味着我们...