0

0

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

WBOY

WBOY

发布时间:2024-08-07 11:44:32

|

1129人浏览过

|

来源于机器之心

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

准确率达60.8%,浙大基于transformer的化学逆合成预测模型,登nature子刊

编辑 | KX

逆合成是药物发现和有机合成中的一项关键任务,AI 越来越多地用于加快这一过程。

现有 AI 方法性能不尽人意,多样性有限。在实践中,化学反应通常会引起局部分子变化,反应物和产物之间存在很大重叠。

受此启发,浙江大学侯廷军团队提出将单步逆合成预测重新定义为分子串编辑任务,迭代细化目标分子串以生成前体化合物。并提出了基于编辑的逆合成模型 EditRetro,该模型可以实现高质量和多样化的预测。

大量实验表明,模型在标准基准数据集 USPTO-50 K 上取得了出色的性能,top-1 准确率达到 60.8%。

结果表明,EditRetro 表现出良好的泛化能力和稳健性,凸显了其在 AI 驱动的化学合成规划领域的潜力。

相关研究以「Retrosynthesis prediction with an iterative string editing model」为题,于 7 月 30 日发布在《Nature Communications》上。

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

论文链接:https://www.nature.com/articles/s41467-024-50617-1

分子合成路径设计是有机合成的一项重要任务,对生物医学、制药和材料工业等各个领域都具有重要意义。

逆合成分析是开发合成路线最广泛使用的方法。它包括使用已建立的反应将分子迭代分解为更简单、更易于合成的前体。

近年来,AI 驱动的逆合成促进了对更复杂分子的探索,大大减少了设计合成实验所需的时间和精力。单步逆合成预测是逆合成规划的重要组成部分,目前已有几种基于深度学习的方法,且效果优异。这些方法大致可分为三类:基于模板的方法、无模板的方法和半基于模板的方法。

在此,研究人员专注于无模板逆合成预测。提出将问题重新定义为分子字符串编辑任务,并提出基于编辑的逆合成模型 EditRetro,可以实现高质量和多样化的预测。

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

图示:所提出的基于分子串的逆合成的 EditRetro 方法的示意图。(来源:论文)

该研究的核心概念是,通过使用 Levenshtein 操作的迭代编辑过程生成反应物字符串。该方法从基于编辑的序列生成模型的最新进展中汲取灵感。具体来说,采用了 EDITOR 中的操作,EDITOR 是一种基于编辑的 Transformer,专为神经机器翻译而设计。

EditRetro 概述

EditRetro 模型包含三种编辑操作,即序列重新定位、占位符插入和标记插入,以生成反应物字符串。它由一个 Transformer 模型实现,该模型由一个编码器和三个解码器组成,两者都由堆叠的 Transformer 块组成。

  • 重新定位解码器:重新定位操作包括基本的 token 编辑操作,例如保留、删除和重新排序。它可以与识别反应中心的过程进行比较,包括重新排序和删除原子或基团以获得合成子。
  • 占位符解码器:占位符插入策略(分类器)预测要在相邻 token 之间插入的占位符数量。它在确定反应物的结构方面起着至关重要的作用,类似于识别从序列重新定位阶段获得的中间合成子中添加原子或基团的位置。
  • Token 解码器:token 插入策略(分类器),负责为每个占位符生成候选 token。这对于确定可用于合成目标产品的实际反应物至关重要。该过程可以看作是合成子完成的类似过程,结合占位符插入操作。

EditRetro 模型通过其非自回归解码器提高了生成效率。尽管结合了额外的解码器来迭代预测编辑操作,但 EditRetro 在每个解码器内并行执行编辑操作(即非自回归生成)。

Interior AI
Interior AI

AI室内设计,上传室内照片自动帮你生成多种风格的室内设计图

下载

当给定一个目标分子时,编码器将其字符串作为输入并生成相应的隐藏表示,然后将其用作解码器交叉注意模块的输入。类似地,解码器也在第一次迭代时将产品字符串作为输入。在每次解码迭代期间,三个解码器依次执行。

优于基线、生成准确反应物

研究人员在公共基准数据集 USPTO-50K 和 USPTO-FULL 上评估了所提方法。大量实验结果表明,该方法在预测准确度方面优于其他基线,包括最先进的基于序列的方法 R-SMILES 和基于图编辑的方法 Graph2Edits。

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

EditRetro 在基准逆合成数据集 USPTO-50K 上进行的大量实验表明,EditRetro 取得了优越的性能,top-1 精确匹配准确率达到 60.8%。

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

此外,在更大的 USPTO-FULL 数据集上,其中 top-1 精确匹配准确率达到 52.2%,证明了其在更多样化和更具挑战性的化学反应中是有效的。

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

EditRetro 在 RoundTrip 和 MaxFrag 准确率方面也表现出优于基线方法的性能。这证明了 EditRetro 能够有效地学习化学规则。

此外,EditRetro 通过精心设计的推理模块提供多样化的预测。该模块结合了重新定位采样和序列增强,有助于生成多样化和变化的预测。重新定位采样对重新定位动作的预测进行采样,从而能够识别不同的反应位点。序列增强从不同的产品变体到反应物生成不同的编辑途径,从而提高了预测的准确性和多样性。这两种策略共同作用,提高了预测的准确性和多样性。

进一步的实验验证了 EditRetro 在一些更复杂的反应中的优越性,包括手性、开环和成环反应。结果证实了 EditRetro 在这些具有挑战性的场景中的优越性,证明了它能够处理不同类型的化学转化。

在多步合成规划中的实用性

特别是,EditRetro 在四个多步骤逆合成规划场景中的成功应用证明了其实用性。

为了评估 EditRetro 在合成规划中的实用性,通过连续的逆合成预测设计完整的化学途径。研究人员选择了四种具有重要药用价值的目标化合物进行评估:非布司他、奥希替尼、GPX4 的变构激活剂和 DDR1 激酶抑制剂 INS015_037。

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

图示:EditRetro 的多步逆合成预测。(来源:论文)

所有四个示例都产生了与文献中报道的途径非常一致的逆合成途径,大多数预测排名在前两位。在考虑的 16 个单独步骤中,有 10 个步骤的预测准确率为 1。这些结果证明了 EditRetro 在实际逆合成预测中的实际潜力。

通过提供有价值的见解并促进高效合成路线的设计,该方法有望在逆合成规划领域得到实际应用。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

443

2023.08.02

登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6145

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

816

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1065

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1345

2024.03.01

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

298

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1500

2023.10.24

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

22

2026.01.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 3.1万人学习

Django 教程
Django 教程

共28课时 | 3.6万人学习

MySQL 教程
MySQL 教程

共48课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号