表格数据支撑着医疗、金融、电子商务和科学等领域的核心决策。传统机器学习方法(如随机森林和XGBoost)通常需要为每个数据集单独训练模型,跨分布迁移能力有限。受大语言模型启发,表格基础模型(TFMs)通过上下文学习(ICL)技术,仅需少量示例即可泛化到新任务。

作为某机构自动机器学习框架AutoGluon的最新组件,Mitra采用基于ICL的范式进行训练。该模型完全在合成数据上预训练,这些数据由精心设计的先验分布混合生成,包括:

  1. 结构因果模型(描述变量间因果关系的概率图)
    1. 梯度提升树/随机森林等树模型 这种混合策略满足三个关键原则:
  • 在真实任务中表现良好
    • 保持多样性防止过拟合
    • 提供独特的数据模式 模型架构采用二维注意力机制(跨行和跨特征),支持动态表尺寸处理。在TabRepo、TabZilla等主流基准测试中,Mitra在分类和回归任务上均超越TabPFNv2等对比模型,决策边界更规则且连续。实验显示其Elo评分显著优于传统方法(如CatBoost)和AutoGluon 1.3预设方案。

该框架已开源集成于AutoGluon 1.4,支持研究者探索更丰富的先验空间和自适应混合策略。可视化分析表明,相比TabPFNv2,Mitra在二维正弦棋盘数据上能生成更平滑的决策边界。 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)