0

0

CoRL 2022优秀论文;语言模型生成自然界没有的蛋白质

王林

王林

发布时间:2023-04-13 09:37:12

|

2023人浏览过

|

来源于51CTO.COM

转载

目录​


  1. Language models generalize beyond natural proteins
  2. A high-level programming language for generative protein design
  3. DOC: Improving Long Story Coherence With Detailed Outline Contro 
  4. Scalable Diffusion Models with Transformers 
  5. Point-E: A System for Generating 3D Point Clouds from Complex Prompts
  6. Reprogramming to recover youthful epigenetic information and restore vision
  7. Training Robots to Evaluate Robots: Example-Based Interactive Reward Functions for Policy Learning
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)

论文 1:Language models generalize beyond natural proteins


  • 作者:Robert Verkuil 、 Ori Kabeli 等
  • 论文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1.full.pdf

摘要:研究者专注于两个蛋白质设计任务:指定结构的固定骨架设计;从模型中采样结构的无约束生成。尽管语言模型仅针对序列进行训练,但该研究发现它们能够设计结构。在该研究的实验结果中,一共生成了 228 种蛋白质,设计成功的比率是 152/228(67%)。

在 152 个实验成功的设计中,有 35 个与已知的天然蛋白质没有明显的序列匹配。

对于固定主干设计,语言模型成功为 8 个经过实验评估的人工创建的固定主干目标生成了蛋白质设计。

对于不受约束生成的情况,采样的蛋白质涵盖了不同的拓扑结构和二级结构组成,结果具有很高的实验成功率 71/129(55%)。

下图 1 是 ESM2 模型设计蛋白质的总体流程:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

推荐:该研究发现 ESM2 语言模型通过学习深层语法,就能生成天然蛋白质以外的新蛋白质。

论文 2:A high-level programming language for generative protein design

  • 作者:Brian Hie 、 Salvatore Candido 等
  • 论文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1.full.pdf

摘要:FAIR 研究者从模块化和可编程性入手,将两者置于更高的抽象层次,蛋白质设计者只需要重新组合高级指令,然后在生成模型上执行指令即可。

他们提出的生成蛋白质设计的编程语言,允许设计人员指定直观、模块化和分层的程序。该编程语言首先需要一个语法树 (图 1A),由末端符号 (即树的叶子) 和非末端符号 (即树的内部节点) 组成,前者对应一个独特的蛋白质序列 (在蛋白质中可能重复),后者支持分层组织。

此外还需要一个基于能量的生成模型。首先,蛋白质设计器指定一个高级程序,该程序由一组按层次组织的约束组成(图 1A)。然后,该程序编译为一个能量函数,用于评估与约束的兼容性,约束是任意的且不可微的(图 1B)。最后通过将原子级结构预测(由语言模型支持)合并到能量函数中,可以生成大量复杂的蛋白质设计(图 1C)。

图片

推荐:编程生成复杂和模块化的蛋白质结构。

论文 3:DOC: Improving Long Story Coherence With Detailed Outline Contro


  • 作者:Kevin Yang 、 Dan Klein 等
  • 论文地址:https://arxiv.org/pdf/2212.10077.pdf

摘要:前段时间,模仿人类写作过程的语言模型 Re^3 发布,该模型不需要微调大模型,而是通过设计 prompt 来生成一致性强的故事。

现在,该研究团队又提出了一个生成故事的新模型 DOC。论文作者 Kevin Yang、田渊栋也在推特上发文宣传了 DOC 模型,表示 DOC 比 Re^3 生成的故事更加连贯、有趣。

DOC 框架意指详细大纲控制(Detailed Outline Control),用于在自动生成数千字长故事时提高情节的连贯性。DOC 由两个互补的组件组成:详细大纲组件(Detailed Outliner)、详细控制器(Detailed Controller)。

Detailed Outliner 负责创建详细的、分层结构的大纲,将写作创意从起草转移到规划阶段。Detailed Controller 则通过控制故事段落与大纲细节对齐,确保生成结果遵循详细的大纲。

该研究对模型自动生成故事的功能进行了人工评估,DOC 在多个指标上获得了大幅增益:情节连贯性(22.5%)、大纲相关性(28.2%)和趣味性(20.7%),大大优于 Re^3 模型。此外,DOC 在交互式生成环境中更易于控制。

图片

推荐:田渊栋等原班人马又一新作:AI 生成长篇故事,数千字长文也能连贯、有趣。

论文 4:Scalable Diffusion Models with Transformers

  • 作者:William Peebles 、谢赛宁
  • 论文地址:https://arxiv.org/pdf/2212.09748.pdf

摘要:本文中来自 UC 伯克利的 William Peebles 以及纽约大学的谢赛宁撰文《 Scalable Diffusion Models with Transformers 》,目标是揭开扩散模型中架构选择的意义,并为未来的生成模型研究提供经验基线。该研究表明,U-Net 归纳偏置对扩散模型的性能不是至关重要的,并且可以很容易地用标准设计(如 transformer)取代。

该研究专注于一类新的基于 Transformer 的扩散模型:Diffusion Transformers(简称 DiTs)。DiTs 遵循 Vision Transformers (ViTs) 的最佳实践,有一些小但重要的调整。DiT 已被证明比传统的卷积网络(例如 ResNet )具有更有效地扩展性。

具体而言,本文研究了 Transformer 在网络复杂度与样本质量方面的扩展行为。研究表明,通过在潜在扩散模型 (LDM) 框架下构建 DiT 设计空间并对其进行基准测试,其中扩散模型在 VAE 的潜在空间内进行训练,可以成功地用 transformer 替换 U-Net 主干。本文进一步表明 DiT 是扩散模型的可扩展架构:网络复杂性(由 Gflops 测量)与样本质量(由 FID 测量)之间存在很强的相关性。通过简单地扩展 DiT 并训练具有高容量主干(118.6 Gflops)的 LDM,可以在类条件 256 × 256 ImageNet 生成基准上实现 2.27 FID 的最新结果。

图片

推荐:统治扩散模型的 U-Net 要被取代了,谢赛宁等引入 Transformer 提出 DiT。

论文 5:Point-E: A System for Generating 3D Point Clouds from Complex Prompts

ImgCleaner
ImgCleaner

一键去除图片内的任意文字,人物和对象

下载
  • 作者:Alex Nichol、Heewoo Jun 等
  • 论文地址:https://arxiv.org/abs/2212.08751

摘要:OpenAI 开源的 3D 模型生成器 Point-E 引发了 AI 圈的新一轮热潮。根据与开源内容一并发布的论文介绍,Point-E 可以在单块 Nvidia V100 GPU 上在一到两分钟内生成 3D 模型。相比之下,现有系统(如谷歌的 DreamFusion)通常需要数小时和多块 GPU。

Point-E 不输出传统意义上的 3D 图像,它会生成点云,或空间中代表 3D 形状的离散数据点集。Point-E 中的 E 是「效率」的缩写,表示其比以前的 3D 对象生成方法更快。不过从计算的角度来看,点云更容易合成,但它们无法捕获对象的细粒度形状或纹理 —— 这是目前 Point-E 的一个关键限制。

为了解决这一问题,OpenAI 团队训练了一个额外的人工智能系统来将 Point-E 的点云转换为网格。

图片

推荐:三次元的文本到图像 AI 成了:单 GPU 不到一分钟出货,OpenAI 出品。

论文 6:Reprogramming to recover youthful epigenetic information and restore vision

  • 作者:Yuancheng Lu、Benedikt Brommer
  • 论文地址:https://www.nature.com/articles/s41586-020-2975-4

摘要:2020 年 12 月 2 日,顶级科学期刊《Nature》的封面上,出现了几个令人惊奇的词汇:「Turning Back Time」(时光倒流)。

登上封面的研究来自于哈佛大学医学院终身教授 David Sinclair 的团队。尽管文章只有寥寥数页,却展示了全新的前景 —— 利用基因治疗诱导神经节细胞重编程,恢复年轻的表观遗传信息,从而使得视神经能在损伤后再生,并逆转青光眼和衰老造成的视力下降。

David Sinclair 表示,团队的研究目标始终是减缓和逆转人体衰老,通过解决病因而不是症状来治疗疾病。

在 2020 年这项研究的基础上,David Sinclair 的团队正使用名为「REVIVER」的年龄逆转技术在非人类灵长类动物身上进行测试,以观察看它是否安全并能像小鼠一样治疗失明。

最新的研究则来自 David Sinclair 及其领导的 60 人团队,他表示,衰老就像 CD 上可以擦掉的划痕,或者系统里损坏的软件,只需重新安装即可实现逆转,就像《Lifespan》书中所说的那样。

在预印版论文中,作者表示所有生物都会随时间推移丢失遗传信息,逐渐丧失细胞功能。使用被称为 ICE(用于表观基因组的可诱导变化)的转基因小鼠系统,研究人员证明了修复非诱变 DNA 断裂的过程加速了与年龄相关的生理、认知和分子变化,包括表观遗传的侵蚀, 细胞能力丧失、细胞衰老等。

研究人员称,通过异位表达进行的表观遗传重编程可恢复年轻基因表达的模式。

推荐:逆转衰老的研究。

论文 7:Training Robots to Evaluate Robots: Example-Based Interactive Reward Functions for Policy Learning

  • 作者:Kun Huang、Edward Hu、Dinesh Jayaraman
  • 论文地址:https://openreview.net/pdf?id=sK2aWU7X9b8

摘要:通常来说,物理相互作用有助于揭示不太明显的信息,例如我们可能会拉一下桌腿来评估它是否稳固,或者把一个水瓶倒过来检查它是否漏水,该研究建议可以通过训练机器人来自动获得这种交互行为,以评估机器人尝试执行技能的结果。这些评估反过来作为 IRF(interactive reward functions),用于训练强化学习策略以执行目标技能,例如拧紧桌腿。此外,即使完全训练完成之后,IRF 也可以作为改进在线任务执行的验证机制。对于任何给定的任务, IRF 训练非常方便,并且不需要进一步的规范。

评估结果表明,IRF 可以实现显着的性能改进,甚至可以通过访问演示或精心设计的奖励来超越基线。比如下图中,机器人必须先关门,然后旋转对称的门把手才能完全锁住门。

图片

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

24

2026.01.28

包子漫画在线官方入口大全
包子漫画在线官方入口大全

本合集汇总了包子漫画2026最新官方在线观看入口,涵盖备用域名、正版无广告链接及多端适配地址,助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。

5

2026.01.28

ao3中文版官网地址大全
ao3中文版官网地址大全

AO3最新中文版官网入口合集,汇总2026年主站及国内优化镜像链接,支持简体中文界面、无广告阅读与多设备同步。阅读专题下面的文章了解更多详细内容。

25

2026.01.28

php怎么写接口教程
php怎么写接口教程

本合集涵盖PHP接口开发基础、RESTful API设计、数据交互与安全处理等实用教程,助你快速掌握PHP接口编写技巧。阅读专题下面的文章了解更多详细内容。

1

2026.01.28

php中文乱码如何解决
php中文乱码如何解决

本文整理了php中文乱码如何解决及解决方法,阅读节专题下面的文章了解更多详细内容。

3

2026.01.28

Java 消息队列与异步架构实战
Java 消息队列与异步架构实战

本专题系统讲解 Java 在消息队列与异步系统架构中的核心应用,涵盖消息队列基本原理、Kafka 与 RabbitMQ 的使用场景对比、生产者与消费者模型、消息可靠性与顺序性保障、重复消费与幂等处理,以及在高并发系统中的异步解耦设计。通过实战案例,帮助学习者掌握 使用 Java 构建高吞吐、高可靠异步消息系统的完整思路。

6

2026.01.28

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

23

2026.01.27

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

122

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

51

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
CSS3 教程
CSS3 教程

共18课时 | 4.9万人学习

MongoDB 教程
MongoDB 教程

共17课时 | 2.4万人学习

CSS教程
CSS教程

共754课时 | 24.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号