微信扫码实时跟踪AI前沿
JavelinGuard是一套专为检测大语言模型(LLM)交互中恶意意图而设计的低成本高性能模型架构。该研究提出了多种具有不同速度、可解释性和资源需求权衡的架构方案,并特别针对生产环境部署进行了优化。论文详细探讨了这...
近日,一种名为VIRUS的方法在GitHub上开源,该方法旨在生成对抗性数据,以绕过大型语言模型(LLM)的审核系统,并破坏其安全对齐机制。VIRUS通过精心设计的输入数据,能够有效规避现有的内容过滤和防护措施,从而对L...