0

0

AI赋能蛋白质研究:SaprotHub让蛋白质AI模型训练和调用不再有门槛!

DDD

DDD

发布时间:2025-01-23 20:42:17

|

366人浏览过

|

来源于机器之心

转载

图片

编辑 | scienceai

近年来,AI 技术在蛋白质研究领域发挥了越来越重要的作用。从 AlphaFold2 在结构预测任务上的脱颖而出,到各类蛋白质语言模型(PLMs)在功能预测方面的重大进展,生物研究者们可以利用各式各样的 AI 模型来辅助他们的研究。

然而,随着模型变得越来越复杂,如何训练和调用这些 AI 模型对于缺乏机器学习专业知识的研究者来说是一件非常具有挑战的任务,也因此限制了 AI 技术在实际研究中的应用。

为了解决这个限制,来自西湖大学的研究人员推出了 SaprotHub,允许生物学家以交互的方式训练和调用 AI 模型,同时提出了社区共建的概念,鼓励用户分享训练好的模型权重,促进领域的生态发展。

该研究以「SaprotHub: Making Protein Modeling Accessible to All Biologists」为题,于 2024 年 12 月 13 日更新在 bioRxiv 预印本平台

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

SaprotHub 平台

SaprotHub 包括三个核心部分:Saprot 模型、ColabSaprot 交互界面以及 HuggingFace 模型仓库。用户通过 ColabSaprot 来训练和使用 Saprot 模型,同时可以直接加载 HuggingFace 仓库中的模型来进行预测。

关于 Saprot 的详细介绍,请参考作者的文章分享《基于结构感知词表的蛋白质语言模型 SaProt》。

文章链接:https://zhuanlan.zhihu.com/p/664754366

ColabSaprot

ColabSaprot 以交互界面的形式让用户可以不需要编写任何代码就能够训练和调用模型,包括一键配置环境、自动处理数据、模型训练监控、最佳权重保存等。

ColabSaprot 目前提供三大功能:模型训练、模型调用以及模型分享。详细功能介绍如下:

模型训练

ColabSaprot 将训练模型所需的繁杂步骤全部进行了封装。用户只需要在交互界面中按照需求设定好目标训练任务,随后上传一个指定格式的数据集文件即可开始训练。

考虑到使用者可能对相关的机器学习知识并不熟悉(例如 learning rate、batch size 等),ColabSaprot 在每一个选择栏都有相关的提示说明,确保使用者能够轻松地使用 ColabSaprot 完成自己的模型训练。

图片

图示:ColabSaprot 模型训练界面。(来源:ColabSaprot 平台截图)

模型调用

ColabSaprot 提供了多种预测任务供用户调用,包括蛋白质属性预测(利用自己训练好的模型或者 SaprotHub 模型仓库的模型进行预测)、突变效应预测(预测单点突变或组合突变对蛋白质 fitness 的影响,例如酶活性等)、蛋白质序列设计(根据上传的蛋白质骨架反向设计序列)以及蛋白质表征获取(获取模型生成的蛋白质 embedding 进行后续分析)。

用户可以自由选择想要使用的功能,跟随指引即可轻松使用。

图片

图示:ColabSaprot 支持多种预测任务。(来源:ColabSaprot 平台截图)

模型分享

为了鼓励用户分享自己训练的模型,共同促进领域内的发展,ColabSaprot 集成了 HuggingFace 的模型上传功能,让用户可以无缝将自己训练完的模型上传到模型仓库中供他人使用,在促进社区发展的同时也能提高自身工作的影响力。

图片

图示:ColabSaprot 模型分享界面。(来源:ColabSaprot 平台截图)

HuggingFace 仓库

作为 SaprotHub 的另一个核心模块,HuggingFace 模型仓库存储了多种已经训练好的模型,可分别用于不同的下游任务预测。

为了方便模型共享和社区协作,ColabSaprot 在训练时采用了 LoRA 的训练机制,通过冻结 backbone 只训练低秩矩阵,大大降低了模型存储和传输的开销。

图片

MakeSong
MakeSong

AI音乐生成,生成高质量音乐,仅需30秒的时间

下载

图示:SaprotHub 模型仓库。(来源:论文)

除此之外,为了方便用户在数量众多的模型中快速找到自己感兴趣的模型,作者开发了基于 HuggingFace 的搜索引擎,允许用户通过输入关键词来定位相关的模型以及数据集。

搜索引擎链接:https://huggingface.co/spaces/SaProtHub/SaprotHub-search

图片
图示:SaprotHub 搜索引擎。(来源:ColabSaprot 平台截图)

实验分析

ColabSaprot 用户测试

为了验证 ColabSaprot 的可用性,作者招募了 12 位没有机器学习相关背景的生物研究者进行了使用测试,结果如下:

图片

图示:supervised fine-tuning 和zero-shot 预测的结果。(来源:论文)

图中蓝色字体代表监督微调任务,橙色字体代表 zero-shot 突变预测任务。

可以看到,利用 ColabSaprot,即使是没有机器学习背景的用户也能够训练出和 AI 专业的研究者 comparable 的模型,并且用户还能够在 SaprotHub 已有的模型的基础上进一步训练模型,从而缓解了数据不足导致模型性能较弱的情况(见 eYFP fitness prediction)。

而对于突变预测任务,用户可以轻松地获得与编写代码跑出来一致的结果,仅仅需要通过鼠标点击的方式。

湿实验验证

为了验证 ColabSaprot 在实际研究中的可用性,作者对 ColabSaprot 的预测结果进行了多种湿实验验证,包括:

  • 木聚糖酶突变优化(zero-shot)

在预测的 top 20 个突变中,有 13 个突变都使酶活性增强,其中 R59S 和 F212N 分别是原始酶活性的 2.55 倍和 1.88 倍。

  • TDG 突变优化(zero-shot)

在预测的 top 20 个突变中,有 17 个突变都使编辑效率增强,其中 L74E、H11K 和 L74Q 突变体的编辑效率接近原始蛋白的 2 倍。

  • GFP 突变优化(supervised fine-tuning)

在通过 GFP 突变数据微调过后,利用模型预测的 top 9 个双点突变中,有 7 个都提高了荧光强度,其中一个突变体达到了野生型 8 倍以上的荧光强度。

结论

研究人员开源的 ColabSaprot 交互式蛋白质语言模型平台,旨在降低 AI 技术的使用门槛,使生物学研究者无需复杂的机器学习背景或编程能力,即可轻松训练和调用 AI 模型。

这一创新举措不仅为研究者提供了强大的工具支持,还显著提升了 AI 技术在蛋白质科学研究中的可及性和实用性。通过 ColabSaprot,更多研究者能够便捷地利用先进 AI 技术,加速研究进程,推动蛋白质科学迈入 AI 赋能的新时代。

论文链接:https://www.biorxiv.org/content/10.1101/2024.05.24.595648v5

使用平台:https://colab.research.google.com/github/westlake-repl/SaprotHub/blob/main/colab/SaprotHub_v2.ipynb

代码仓库:https://colab.research.google.com/github/westlake-repl/SaprotHub/blob/main/colab/SaprotHub_v2.ipynb

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

771

2026.01.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2073

2024.08.16

什么是搜索引擎
什么是搜索引擎

搜索引擎是一种互联网工具,用于帮助用户在网上查找信息。搜索引擎的目标是提供最准确、最有价值的搜索结果,使用户能够快速找到所需的信息。本专题为大家提供搜索引擎相关的各种文章、以及下载和课程。

388

2023.08.02

有哪些目录搜索引擎
有哪些目录搜索引擎

目录搜索引擎有Google、Bing、Yahoo、Baidu、DuckDuckGo等。想了解更多目录搜索引擎的相关内容,可以阅读本专题下面的文章。

2862

2023.11.06

搜索引擎营销的主要模式
搜索引擎营销的主要模式

搜索引擎营销的主要模式包括:1. 竞价排名(ppc);2. 搜索引擎优化(seo);3. 本地搜索营销;4. 购物广告;5. 视频广告;6. 展示广告;7. 社交媒体营销;8. 移动广告。想了解更多搜索引擎营销的相关内容,可以阅读本专题下面的文章。

435

2024.05.20

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

10

2026.01.27

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

109

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

16

2026.01.26

苹果官方查询网站 苹果手机正品激活查询入口
苹果官方查询网站 苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行,可用于查询序列号(SN)对应的保修状态、激活日期及技术支持服务。此外,查找丢失设备请使用 iCloud.com/find,购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

131

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 3.1万人学习

Django 教程
Django 教程

共28课时 | 3.6万人学习

MySQL 教程
MySQL 教程

共48课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号