大模型安全的相关内容 - 漫话开发者

2026-05-19 talkingdev

揭密大模型内部的政治审查机制：Qwen3.5-9B权重中的可读“审查开关”

一项针对阿里通义千问Qwen3.5-9B模型的最新逆向分析揭示，该模型的政治审查并非根植于其预训练阶段获取的事实性知识，而是在知识层之上附加的一层独立、可识别甚至可移除的注意力电路。研究人员发现，模型本身并未“...

2025-03-31 talkingdev

最新研究揭示了现有防御有害微调攻击（Harmful Fine-Tuning Attacks）方法的脆弱性，并提出了一种名为Panacea的创新解决方案。该方案采用自适应扰动技术，在保持模型微调性能的同时有效维护模型安全性。这一突破性进...