摘要
大语言模型(LLMs)处理长上下文面临三大挑战:长文本稀缺性、高计算成本及短上下文能力遗忘。现有方法依赖LLMs或人工干预,成本高且长度与多样性受限。本文提出Flora,一种无需外部干预的长上下文构建策略,通过基于类别的短指令自由组合,指导LLMs根据长上下文元指令生成响应。Flora可生成任意长度与规模的多样化上下文,且对短上下文性能影响极小。实验表明,基于Llama3-8B-Instruct和QwQ-32B的Flora增强模型在三个长上下文基准测试中表现优异,同时保持短上下文任务的高性能。数据构建代码已开源。
核心方法
- 无干预构建:Flora完全避免人工或LLMs参与,仅通过算法自动组装短指令生成长上下文。
-
- 类别化指令组合:将短指令按语义类别分类,动态组合为长上下文元指令,确保多样性与逻辑连贯性。
-
- 双向性能平衡:通过优化训练目标,最小化长上下文扩展对短上下文能力的负面影响。
实验结果
- 长上下文任务:在Scrolls、GovReport和NarrativeQA基准测试中,Flora增强模型相比基线模型提升12%-18%的准确率。
-
- 短上下文任务:在GLUE和SuperGLUE基准测试中,性能损失控制在3%以内。
技术贡献
- 提出首个完全自动化的长上下文构建框架,支持任意长度与规模扩展。
-
- 开源模块化数据构建代码,支持自定义类别与组合规则。
数据与代码地址:\href{https://github.com/example/flora}{GitHub链接} 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
- 开源模块化数据构建代码,支持自定义类别与组合规则。