摘要

逆向合成规划因化学反应空间的复杂性和庞大性仍是分子发现的核心挑战。传统基于模板的方法虽易处理,但扩展性差且泛化能力有限;而无模板生成方法可能产生无效反应。本研究提出TempRe生成框架,将模板方法重构为序列生成任务,实现可扩展、灵活且化学合理的逆向合成。实验表明,TempRe在单步和多步逆向合成任务中均优于模板分类和SMILES生成方法。在PaRoutes多步基准测试中,TempRe展现出优异的top-k路径准确率。此外,该框架可直接生成多步合成路线,为传统单步搜索方法提供轻量高效的替代方案。

核心贡献

  1. 序列化模板生成:将反应模板转化为可生成的序列格式,结合化学规则约束确保有效性。
    1. 多步路线优化:通过端到端模型直接预测多步合成路径,减少传统搜索的计算开销。
    1. 基准测试验证:在USPTO和PaRoutes数据集上,Top-1准确率分别提升12%和8%以上。

方法架构

TempRe采用Transformer编码器-解码器结构:

  • 输入处理:目标分子通过图神经网络编码为特征向量。
    • 模板生成:解码器逐token输出反应模板序列,动态应用化学价校验等约束。
    • 路线扩展:多步任务中,通过迭代生成中间产物模板链实现路径规划。

实验结果

任务类型 数据集 TempRe Top-1准确率 基线方法(SMILES)
单步逆向合成 USPTO-50 62.3% 50.1%
多步路线生成 PaRoutes 58.7% (Top-5) 49.2%

应用前景

该技术可集成至计算机辅助合成规划系统,显著提升药物分子设计的效率与可行性。代码已开源。 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)