[开源]检测大语言模型中的遗忘痕迹
talkingdev • 2025-06-20
8653 views
最新研究发现,经过机器遗忘训练的大语言模型(LLMs)会留下可检测的行为和激活空间“指纹”。通过简单的分类器,可以以超过90%的准确率识别出这些遗忘痕迹。这一发现引发了关于隐私和版权的重大关切,尤其是在涉及敏感数据或受版权保护内容的遗忘处理时。该研究由optml-group团队在GitHub上开源,为研究者和开发者提供了检测遗忘痕迹的工具和方法。这一技术的潜在影响深远,可能重塑大语言模型在数据隐私和版权合规方面的应用标准。