0

0

基因组构象预测模型与高通量计算遗传筛选方法的探究与应用

PHPz

PHPz

发布时间:2023-05-08 14:16:08

|

944人浏览过

|

来源于51CTO.COM

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

谭济民、夏波等提出基因组构象预测模型及高通量计算遗传筛选方法

图 0

不同种类细胞中基因组构象的差异决定了基因表达的特异性,进而决定不同细胞类型的功能差异。长久以来,从原位杂交到高通量检测如 Hi-C、micro-C 技术,基因组构象检测的实验方法通常耗时耗力、成本高昂且有很强的技术局限性。这些方法极大地限制了这些实验技术在基因组构象研究领域的广泛应用,尤其是研究稀有细胞类型以及需要大规模验证基因组构象调控的因果关系等方面。这些方法的局限性也长期限制三维基因组构象调控领域里的新发现。

谭济民、夏波等提出基因组构象预测模型及高通量计算遗传筛选方法

图 1

2023 年 1 月 9 日,纽约大学医学院(NYU Grossman School of Medicine)Aristotelis Tsirigos 实验室和博德研究所(Broad Institute of MIT and Harvard)夏波实验室合作在 Nature Biotechnology 上发表文章《Cell type-specific prediction of 3D chromatin organization enables high-throughput in silico genetic screening》。

谭济民、夏波等提出基因组构象预测模型及高通量计算遗传筛选方法

论文地址:https://www.nature.com/articles/s41587-022-01612-8

这项研究中,第一作者纽约大学医学院博士生谭济民与夏波博士首先提出了新型多模态机器学习模型 C.Origami 来预测特定细胞类型的染色质构象,并基于遗传筛选的原理提出了全新的高通量计算遗传筛选 (in silico genetic screening, ISGS) 方法,用以鉴定细胞类型特异性的功能基因组元件,助力发现新的染色质构象调控机理。

谭济民、夏波等提出基因组构象预测模型及高通量计算遗传筛选方法

图 2

研究者首先构建了应用于基因组数据的新型多模态深度学习框架,Origami,使其能有效地整合 DNA 序列信息以及细胞特异性的功能基因组信息,进而预测新的基因组信息。通过反复调试及模型训练,研究者发现整合 DNA 序列、CTCF 结合状态(CTCF ChIP-seq)、及 ATAC-seq 信号作为输入信息可以准确地预测染色质构象,并以二维的 Hi-C 矩阵作为预测输出目标(图 1-2)。输入信息为 2 百万碱基对的 DNA,CTCF ChIP-seq 和 ATAC-seq。研究者们使用 Onehot-encoding 来编码离散的 DNA 序列,而 CTCF ChIP-seq 和 ATAC-seq 则编码成非离散的特征。

谭济民、夏波等提出基因组构象预测模型及高通量计算遗传筛选方法

C.Origami 模型分为三个部分,处理并压缩 DNA 及基因组信息的编码器,Transformer 中间层和输出 Hi-C 解码器。其中编码器由一系列 1D ResNet 和 strided convolution 构成用来编码和压缩 2 百万碱基对的输入信息。在编码器末端 2 百万长度的信息被压缩为 256 长度并作为 Transformer 的输入信息。Transformer 的自注意力机制可以处理不同基因组区域间的 interdependency 并提升了模型的综合性能。Transformer 中的注意力矩阵还可以增强模型的可解释性。研究者们将注意力权重转换成了 “attention score ”,用来衡量模型在预测时对于不同区域的侧重。最后,研究者们将 Transformer 模块的 1D 输出用 “outer concatenation” 的方式转换成了 2D 的 contact/adjacency matrix,用作 Hi-C 解码器的输入信息。解码器是一个 Dilated 2D ResNet。研究者们调整了不同层的 dilation factor 使得最后层的每一个像素位置的 receptive field 都能覆盖所有输入信息。

这一预测染色质构象的模型则被称为 C.Origami。研究者称 C.Origami 是基因组学中第一个多模态深度学习模型。由于它多模态的特性,C.Origami 能够准确地预测(de novo prediction)从未接触过的新细胞类型的染色质构象。例如,在 IMR-90 细胞(肺成纤维细胞)上训练的模型能够准确预测出 GM12878 细胞(B 淋巴细胞)里特定的染色质构象(图 3)。

谭济民、夏波等提出基因组构象预测模型及高通量计算遗传筛选方法

图 3

结构变异(structural variant)---- 比如染色体易位 ---- 在肿瘤中非常常见,并经常改变染色质相互作用模式,进而可能影响癌基因或抑癌基因的表达。研究这些结构变异对染色质构象及基因表达的影响对理解肿瘤发生和进展的机理有重要作用。这类研究通常需要借助 4C-seq 或 Hi-C 等实验来分析结构变异位点的染色质构象,但又往往受限于资源和时间的限制,难以大规模开展。

这项研究中,C.Origami 可以在输入变量中模拟 DNA 序列的变异,然后预测变异后的癌症基因组中新的染色质相互作用。之前的研究发现 T 细胞急性淋巴细胞白血病(T-ALL)细胞模型 CUTLL1 有一个 chr7-chr9 的染色体易位(图 4)。通过计算模拟染色体易位变异,C.Origami 准确预测了在变异位点的新 TAD 结构,并检测到从 chr9 延伸到 chr7 的‘互动束’(chromatin stripe)结构(图 4)。

谭济民、夏波等提出基因组构象预测模型及高通量计算遗传筛选方法

图 4

鉴于 C.Origami 的精准预测效果,并受到反向遗传筛选原理的启发,研究者提出了全新的高通量计算遗传筛选 (in silico genetic screening,ISGS) 方法,用以系统鉴定细胞类型特异性的功能基因组元件,并助力发现新的染色调控分子(图 5)。研究者们基于 C.Origami 模型开发了用于系统性鉴定染色质构象所需的顺式调控元件(cis-regulatory element)的计算遗传筛选 ISGS 的框架。通过对全基因组 1kb 分辨率的 ISGS,作者分离出对染色质构象有重要影响的顺式调控元件(占约 1% 的基因组)。这些染色质构象调控序列呈现出对 CTCF 结合和 ATAC-seq 信号的不同依赖度(图 5)。

谭济民、夏波等提出基因组构象预测模型及高通量计算遗传筛选方法

图 5

ISGS 框架可以对细胞或疾病特异性的染色质构象进行高通量筛选。研究者在 CUTLL1、Jurkat 和正常 T 细胞中分别进行了 ISGS,并发现了一个在 CHD4 基因附近的顺式调控元件 (CHD4-insu) 在 T-ALL 细胞里特异性丢失。筛选结果表明,T-ALL 细胞中 CHD4-insu 的绝缘性缺失可能使 CHD4 基因建立新的染色质相互作用,进而上调 CHD4 表达并促进白血病细胞增殖。

ISGS 也可以用来系统地发现调控染色质构象的新型反式作用因子(trans-acting factors)。通过对细胞类型特异性的重要调控序列与转录因子结合部位的富集分析,研究者确定了有助于细胞类型特异的基因组构象的调控因子。有意思的是,之前研究发现 MAZ 可能与 CTCF 一起调控染色质构象。通过 ISGS 及转录因子富集分析,作者发现 MAZ 极大地富集于开放染色质区域,而在 CTCF 结合的非开放染色质区域仅显示微弱结合。这一结果预示 MAZ 可能独立于 CTCF 调节基因组构象。

研究者们在染色质结构预测中看到了结合 DNA 序列与染色质信息的多模态机器学习模型的巨大潜力。而该模型的底层多模态架构 Origami 可以推广到其他基因组学数据的应用,例如表观遗传修饰、基因表达、突变功能性筛查等。研究者预测,未来的基因组学研究将更多的转向使用利用深度学习模型作为工具来进行主要计算遗传筛选,并辅以生物实验验证的新一代高通量研究方法。

这项研究中,纽约大学医学院博士研究生谭济民为第一作者,Aristotelis Tsirigos 博士和夏波博士为共同通讯作者。这项研究起始于 2020 年 10 月疫情封控期间夏波与谭济民的头脑风暴,历经两年半的完善与打磨,在 2023 年一月于 Nature Biotechnology 正式刊出。 

此项目的代码和训练数据已在GitHub和Zenodo上开源,并配有Google Colab做功能展示。

项目地址:https://github.com/tanjimin/C.Origami

通讯作者

夏波博士实验室(Broad Institute of MIT and Harvard)主页:www.boxialab.org

歌者PPT
歌者PPT

歌者PPT,AI 写 PPT 永久免费

下载

夏波博士致力于解析调控基因组三维构象的核心机理及其对人类疾病、发育及进化的生物学意义。夏波实验室欢迎志同道合的博士后加入团队。

Tsirigos Lab(New York University Grossman School of Medicine)主页:http://www.tsirigos.com

Tsirigos Lab 的主要研究方向包括染色质,表观遗传学和机器学习在精准医疗中的应用。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

46

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

178

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

51

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

92

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

532

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

171

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 2.1万人学习

swoole进程树解析
swoole进程树解析

共4课时 | 0.2万人学习

ThinkPHP6.x 微实战--十天技能课堂
ThinkPHP6.x 微实战--十天技能课堂

共26课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号