LLM的扩展挑战

当前大语言模型的能力提升依赖参数规模增长,但随之而来的内存与计算需求使训练和部署成本激增。现有优化方案聚焦两类方法:

  1. 参数共享:如层权重复用技术,减少唯一参数数量以降低计算复杂度;
    1. 自适应计算:如早退机制,根据输入复杂度动态分配计算资源。
  2. 然而,二者高效结合的架构设计仍具挑战性。

混合递归架构原理

MoR基于递归Transformer框架,通过两项创新实现效率突破:

  1. 轻量级路由器:类似混合专家模型(MoE)的机制,动态分配每个token的递归深度(即计算次数),仅对复杂token分配更多计算资源;
    1. 递归感知KV缓存:选择性存储活跃token的键值对,减少内存流量,无需训练后修改即可提升吞吐量。

性能验证

在1.35亿至17亿参数规模的测试中,MoR展现出显著优势:

  • 同等计算预算下,参数量减少50%但少样本准确率提升0.8%(43.1% vs 42.3%);
    • 相同数据训练时,训练时间缩短19%,峰值内存降低25%;
    • 推理阶段最大实现2.06倍加速,360M以上参数模型性能持平或超越标准Transformer。

企业落地路径

研究团队建议通过增量训练现有开源模型适配MoR架构,并强调开发者可通过调节递归步数平衡性能与效率。该框架具备多模态扩展潜力,未来可应用于视频、音频等场景的动态计算优化。

“MoR为降低大模型计算与内存开销提供了有效路径。” —— 论文结论 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)