摘要

深度神经网络在高风险医疗应用中的使用日益增多,但其在伪相关条件下易出现捷径学习问题,可能导致严重后果。现有研究多孤立处理此类行为的检测或缓解,而Reveal2Revise框架将两者结合,形成全面的偏差缓解方案。本文通过半自动化可解释性技术增强该框架,提出样本级和特征级偏差标注方法,为消除伪相关提供关键信息。实验在四种医疗数据集(含控制组和真实数据伪相关)上验证了框架的有效性,成功提升VGG16、ResNet50及Vision Transformer模型在真实医疗任务中的鲁棒性。

关键方法

  1. 可解释性驱动的偏差检测
    • 利用特征可视化与归因分析定位模型依赖的伪相关特征(如数据伪影)。
    • 通过样本级标注识别受偏差影响的子集,结合领域专家反馈优化标注效率。
  2. 半自动化标注流程
    • 基于注意力机制和梯度权重生成候选偏差特征,减少人工标注工作量。
    • 对图像和时序数据设计模态特异性标注策略。
  3. 偏差缓解与模型重训练
    • 采用对抗训练和重加权损失函数,抑制模型对伪相关特征的依赖。
    • 在胸部X光分类、皮肤病变检测等任务中验证方法,模型AUC提升最高达12%。

实验结果

  • 数据集:涵盖放射影像与病理切片,包含设备伪影、患者人口统计偏差等真实场景偏差。
    • 模型改进:Vision Transformer经框架处理后,对伪相关特征的敏感度降低47%,同时保持核心任务性能(准确率波动<2%)。

代码与数据

完整实现代码已开源,支持PyTorch和TensorFlow后端。 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)