ICCV 2025 | Achieving More with Less: Additive Prompt Tuning for Rehearsal-Free CIL_#计算机视觉

论文信息

  • 标题 :Achieving More with Less: Additive Prompt Tuning for Rehearsal-Free Class-Incremental Learning
  • 作者 :Haoran Chen、Ping Wang、Zihan Zhou、Xu Zhang、Zuxuan Wu、Yu-Gang Jiang
  • 单位 :复旦大学智能信息处理上海市重点实验室、上海智能视觉计算协同创新中心、APUS AI 实验室
  • 链接:https://arxiv.org/abs/2503.07979

研究背景

类增量学习(Class-Incremental Learning,CIL)是一种模型能够逐步学习新类别并保留对之前学习类别知识的连续学习范式。与传统机器学习不同,CIL 中类别是依次引入的,而非在训练期间同时呈现所有类别。CIL 的核心挑战之一是减轻灾难性遗忘现象,即模型在适应新类别时,对早期类别的性能会下降。传统方法通常依赖于基于复习的方法,但近年来由于数据隐私等 concerns,越来越多的 CIL 方法转向无复习场景,研究者开始探索利用参数高效的微调(PEFT)技术,尤其是基于视觉提示(prompt)的方法。

研究动机

尽管基于视觉提示的框架在 CIL 领域取得了进展,但这些方法引入了显著的计算开销。一方面,其基于查询的机制需要额外的前向传递,使计算成本翻倍;另一方面,为了获得有竞争力的性能,大多数方法选择使用大量提示 token,增加输入序列长度,导致计算开销与输入 token 数量成比例增加。鉴于这些 drawbacks,作者提出是否真的需要如此复杂的提示选择框架以及提示拼接范式是否是最有效和高效的方法,从而提出了新的提示调优方法。

ICCV 2025 | Achieving More with Less: Additive Prompt Tuning for Rehearsal-Free CIL_#计算机视觉_02

研究内容

  • 新颖的提示调优方法(APT):提出了一种新的基于提示的类增量学习方法 APT,使用单个共享提示集,并直接修改 CLS token 的注意力计算,而不是将提示拼接到输入中。这种方法不仅显著降低了计算复杂度,还消除了为不同下游任务优化提示长度的需求。
  • 实现方法
  • 提示向量的初始化和训练:对于每个 Transformer 层,APT 引入两个可学习的提示向量,分别用于修改 CLS token 的键和值向量。这些提示向量在所有层中共享,并在训练过程中与分类头一起更新,而预训练的 ViT 参数保持冻结。
  • 注意力计算的修改:在每个 Transformer 层中,首先提取 CLS token 的键向量和值向量,然后将可学习的提示向量分别加到这些键和值向量上。接下来,进行标准的自注意力计算,其中修改后的键和值向量用于计算注意力权重。
  • 渐进式提示融合(PPF)策略:为了有效减轻灾难性遗忘,提出了一种渐进式提示融合(PPF)的推理策略。在训练新任务之前保存原始提示集,训练完成后计算原始和新训练提示的加权平均值,以形成新的提示集。这种策略确保提示保留以前学习任务的知识,同时结合当前任务的相关信息。
  • 实现方法
  • 提示保存和更新:在训练每个新任务之前,保存当前的提示集。完成新任务的训练后,将新训练的提示与保存的原始提示进行加权平均,形成新的提示集。权重参数 α 控制旧知识和新任务适应之间的平衡。
  • 推理阶段的应用:PPF 策略仅在推理阶段应用。在训练阶段,模型仅使用当前提示向量,以确保有效地学习任务特定的特征。一旦调整了提示,调整后的提示将用于所有后续的推理,直到遇到下一个任务。
  • 权重参数的设置:论文的实验中,α 被设置为一个固定值。具体来说,对于 Split ImageNet-R 数据集,α 被设置为 0.8;对于其他数据集,α 被设置为 0.7。这种固定值的设置是基于实验验证的,旨在找到一个平衡点,使得模型能够在保留旧任务知识和学习新任务知识之间取得较好的效果。为了验证 PPF 策略对 α 的敏感性,作者进行了超参数分析实验。实验结果表明,APT 的性能在不同 α 值下表现出相对较小的波动,这表明 PPF 设计具有较强的鲁棒性。例如,在 Split CIFAR-100 和 Split ImageNet-R 数据集上,当 α 值在 0.2 到 0.8 之间变化时,性能变化并不显著,这说明即使 α 的取值不是最优的,PPF 策略仍然能够有效地发挥作用。
  • 实验验证:在 4 个流行的 CIL 基准测试数据集(CIFAR-100、ImageNet-R、CUB200 和 Stanford Cars)上进行了广泛的实验,证明了 APT 的有效性。实验结果表明,与基于提示的其他方法相比,APT 实现了更高的平均准确率,同时显著降低了推理成本和可训练提示参数的数量。

研究价值

  • 性能提升:APT 在多个 CIL 基准测试中实现了最优性能。例如,在 ImageNet-R 上,APT 可以实现平均性能提升 5.2%,同时 GFLOPs 减少 41.5%,可训练提示参数减少 78.2%。
  • 效率提升:APT 显著降低了推理成本和可训练参数数量。对于 ViT-B/16 架构,APT 每层只需要训练 2 个提示向量,12 个 Transformer 层总共只需要训练 24 个提示向量。相比之下,Coda-Prompt 的提示池大小为 100。
  • 通用性:APT 还在 CIL 场景之外的各种识别任务中表现出色,成为一种有前景的通用参数高效微调方法。

重要结论

  1. 核心观点 :现有的基于提示的类增量学习方法存在显著的计算开销问题,而 APT 通过创新的提示添加方式有效解决了这一问题。
  • 论文中指出:“these methods introduce several significant but often overlooked drawbacks. First, from a practical point of view, its query-based mechanism requires an additional forward pass through a raw Vision Transformer model, effectively doubling the computational cost. Furthermore, to achieve competitive performance, most methods choose to use a large number of prompt tokens, increasing the input sequence length by up to 50%, which in turn results in a proportional increase in computational overhead, as the computational cost of ViTs scales directly with the number of input tokens.” 这表明,传统基于提示的方法因查询机制和大量提示 token 的使用导致计算成本大幅增加。而 APT 通过直接在 CLS token 的键和值向量上进行添加操作,避免了这些 drawbacks,因为这种添加操作不会改变输入序列长度,从而显著降低了计算复杂度。
  1. 核心观点 :APT 的渐进式提示融合(PPF)策略有效减轻灾难性遗忘,提升了模型对先前学习任务的保留能力。
  • 论文中提到:“To further mitigate forgetting, we propose a Progressive Prompt Fusion (PPF) inference strategy for the prompts. Specifically, we save the original set of prompts before training on a new task and compute a weighted average of the original and newly trained prompts after completing training. This simple strategy ensures that the prompts retain knowledge from previously learned tasks while incorporating relevant information from the current task, enabling a smooth and effective continual learning process.” 这表明,PPF 策略通过在新任务训练前后对提示进行加权平均,使提示既能保留旧知识,又能适应新任务,从而有效减轻了灾难性遗忘。
  1. 核心观点 :APT 在多个类增量学习基准测试中实现了卓越性能,同时在计算效率和参数效率方面表现出色。
  • 论文中描述:“Extensive experiments across a diverse range of CIL benchmarks demonstrate the effectiveness of our approach, highlighting its potential to establish a new prompt-based CIL paradigm. Furthermore, experiments on general recognition benchmarks beyond the CIL setting also show strong performance, positioning our method as a promising candidate for a general parameter-efficient fine-tuning approach.” 例如,在 ImageNet-R 数据集上,APT 可以实现平均性能提升 5.2%,同时 GFLOPs 减少 41.5%,可训练提示参数减少 78.2%。这表明 APT 在多个数据集上不仅性能优异,而且在计算和参数效率方面也具有显著优势。
  1. 核心观点 :APT 的提出为持续学习领域提供了一种新的提示学习范式,具有良好的通用性和扩展性。
  • 论文中指出:“In summary, our contributions are three-fold: • We propose a new prompt learning paradigm APT for CIL, where we adopt prompt addition to the CLS token instead of the conventional concatenation approach. • Experiments show that APT achieves state-of-the-art performance on popular continual learning benchmarks while offering: 1) lower inference overhead, 2) fewer trainable parameters, 3) simplified loss functions, and 4) reduced prompt-related hyperparameter optimization. • Further experiments on various recognition tasks reveal that our method outperforms VPT in both performance and efficiency, positioning it as a promising candidate for a novel, general PEFT approach.” 这表明,APT 的新范式在多个方面优于现有方法,且在持续学习和其他识别任务中均展现出强大的潜力和广泛的应用前景。