对抗性数据的相关内容 - 漫话开发者

2025-06-11 talkingdev

[论文推荐]JavelinGuard：面向大语言模型安全的低成本Transformer架构

JavelinGuard是一套专为检测大语言模型(LLM)交互中恶意意图而设计的低成本高性能模型架构。该研究提出了多种具有不同速度、可解释性和资源需求权衡的架构方案，并特别针对生产环境部署进行了优化。论文详细探讨了这...

2025-01-31 talkingdev

近日，一种名为VIRUS的方法在GitHub上开源，该方法旨在生成对抗性数据，以绕过大型语言模型（LLM）的审核系统，并破坏其安全对齐机制。VIRUS通过精心设计的输入数据，能够有效规避现有的内容过滤和防护措施，从而对L...