伦敦instadeep的研究人员开发了一种名为nucleotide transformer (nt) 的强大基础模型,用于预测dna序列的分子表型。该模型在包含3202个人类基因组和850个不同物种基因组的大规模数据集上进行了预训练,参数规模从5000万到25亿不等。 nt利用transformer架构,能够生成特定上下文的核苷酸序列表示,即使在数据有限的情况下也能实现准确预测。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

这项发表在《Nature Methods》的研究,比较了不同参数规模的NT模型在18个基因组学预测任务上的表现,并将其与其他先进模型进行了对比。结果表明,NT模型在各种任务中都表现出色,尤其是在低数据环境下。

研究人员还发现,NT模型能够通过高效的微调方法快速适应不同的基因组学应用,即使是最大型的模型,也只需少量参数即可在单GPU上完成微调。

更重要的是,研究表明,在不同物种的基因组上进行预训练,能够提升模型在人类基因组预测任务中的泛化能力。这突显了跨物种数据在构建更强大基因组学模型中的重要性。



总之,Nucleotide Transformer 为从DNA序列预测分子表型提供了一种高效且准确的方法,为基因组学研究开辟了新的可能性。 研究人员也指出,未来研究可以探索更有效的跨物种数据利用方法,以进一步提升模型性能。










