ShieldLM:支持自定义检测与决策解释的LLM安全检测器
talkingdev • 2024-02-29
946221 views
最近,研究人员开发了一种名为ShieldLM的安全检测器,可帮助大型语言模型遵守人类安全标准,并提供自定义检测和解释决策的功能。该工具可检测模型是否存在安全问题,例如对不同种族、性别或群体的人有偏见,或者可能会生成有害的内容。此外,ShieldLM还可以根据用户的需求进行自定义检测,并解释其决策,从而增加了模型的透明度和可解释性。该工具已在GitHub上开源。