论文:使用新方法追踪语言模型特征演化,提升模型解释性与控制能力
talkingdev • 2025-02-10
97969 views
近日,一项研究提出了一种创新方法,通过无数据余弦相似度技术追踪稀疏自编码器在大型语言模型(LLM)连续层中发现的特征演化过程。该方法能够映射特征的持久性、转换和涌现,生成跨层特征图。研究表明,这些特征图不仅能够通过特征操作直接控制模型的行为,还能通过细粒度的流图提供对模型计算机制的深入洞察。这一方法为语言模型的解释性和可控性提供了新的工具,有望在模型优化和应用中发挥重要作用。