摘要

大型语言模型(LLM)常通过微调或知识遗忘来适应新任务或消除不良行为。现有评估方法虽能衡量干预后的性能,却缺乏检测不可预测或涌现性副作用(如遗忘生物学内容导致化学任务性能下降)的通用方案。为此,我们提出MNEME(Model diffiNg for Evaluating Mechanistic Effects),一种轻量级框架,利用稀疏模型差分技术识别此类副作用。MNEME通过比较基础模型与微调模型在任务无关数据(如The Pile、LMSYS-Chat-1M)上的行为差异,无需访问微调数据即可隔离行为变化。在三种场景(WMDP知识遗忘、涌现性错位、良性微调)中对五种LLM的测试表明,MNEME预测副作用的准确率高达95%,且与已知基准一致,无需定制启发式规则。此外,实验证明对高激活样本的再训练可部分逆转这些副作用。结果表明,稀疏探测与差分技术为理解和管理LLM行为变化提供了可扩展的自动化工具。

核心内容

  1. 问题背景:LLM的微调与知识遗忘可能引发跨领域性能退化等不可预见的副作用,传统评估方法难以捕捉。
    1. 技术方案
    • 稀疏模型差分:通过对比基础模型与干预后模型在通用数据上的激活差异,量化行为变化。
    • 任务无关评估:无需依赖微调数据,直接分析模型内部机制的变化。
    1. 实验结果
    • 在WMDP知识遗忘任务中,MNEME准确识别因遗忘导致的化学知识退化。
    • 对高激活样本的再训练可使模型性能恢复至干预前的80%。
    1. 应用价值:为模型调试、安全部署及效果追溯提供自动化分析工具,降低人工评估成本。

图表与数据


更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)