MoE模型能为DNA研究带来什么?人大seq2func突破,意味着什么?

2025-10-16 10:10:35 作者:Vali编辑部

Sequence-to-function模型在基因组学领域掀起了一场技术革命。这类模型能够直接从DNA序列中提取功能特征,比如染色质开放性、基因表达量、DNA剪切位点等。其中Enformer作为2021年Nature Methods期刊上最具代表性的成果,为后续研究奠定了重要基础。

最近,谷歌DeepMind团队推出的AlphaGenome模型在技术层面实现突破。该模型将Enformer的输入序列长度扩展至1Mb,引入了剪切强度、DNA三维接触图等新训练任务,实现了单碱基精度的预测能力。这种技术进步让研究人员看到了数据扩展在基因组学建模中的巨大潜力。

在实际应用中,AlphaGenome模型在多个基因组预测任务中达到了当前最优水平。这证明了sequence-to-function模型这种有监督训练范式在学习表征方面的强大能力。不过,单纯的数据扩展并非提升模型能力的唯一路径,这在实际应用中逐渐显现。

中国人民大学高瓴人工智能学院的研究团队提出了一种创新思路:通过符合生物学原理的模型架构创新,可以更高效地提升DNA基础模型的性能与泛化能力。这种思路为基因组学研究提供了新的技术方向。

当前主流模型如Enformer和AlphaGenome存在两个架构性制约。首先是物种共享编码器的局限性,这种「一视同仁」的编码器难以有效区分不同物种间的基因调控模式。其次是独立预测头的知识割裂,基因组功能图谱之间存在高度关联性,独立预测头无法捕捉这些内在依赖关系。

图1展示了SPACE模型的架构设计。该模型包含三个核心阶段:基于CNN的局部上下文聚合模块、引入物种感知混合专家(MoE)的Transformer编码器、引入谱系分组和双层门控机制的增强型解码器。这种设计突破了传统模型的架构限制。

为了解决这些问题,SPACE模型引入两项关键架构革新。首先是物种感知编码器,该模块在Transformer编码器中部署了稀疏混合专家(MoE)层,替代标准的前馈网络。这种设计让模型能根据物种特性动态分配计算资源,学习不同物种间的调控特征。

其次是谱系分组增强解码器,该模块依据生物学知识将功能相关的基因组图谱进行分组。在解码阶段,通过双层门控机制,模型能动态选择最相关的专家网络,捕捉进化上的保守调控模式。这种设计让模型在预测时能更准确地建模功能依赖关系。

实验结果显示,SPACE模型在多个基因组学基准测试中表现优异。研究人员在Nucleotide Transformer提出的18项下游分类任务中,SPACE模型在11项任务中取得当前最佳性能。这种表现远超包括DNABERT-2、HyenaDNA在内的无监督预训练模型,也超越其监督学习基线模型Enformer。

图2展示了SPACE与多个基准模型在18项任务中的表现。加粗字体表示该任务上的最优性能。SPACE在11项任务中达到SOTA水平,这证明了架构设计优良的监督式预测模型具有强大的泛化能力。

在跨物种泛化能力测试中,SPACE模型在GUE基准上表现出色。研究人员特意选择了与训练物种(人、鼠)进化距离较远的酵母和病毒进行测试。结果显示,SPACE模型在所有11项跨物种预测任务中均取得显著提升。

图3对比了SPACE与Enformer在GUE基准上的表现。在酵母的H3K4me3标记预测任务中,SPACE模型性能提升27.28个百分点。这种提升充分证明了物种感知MoE编码器在捕捉进化保守调控特征方面的有效性。

AlphaGenome展示了数据规模带来的技术突破,SPACE模型则提供了另一条技术路径。通过引入符合生物学原理的动态自适应架构,模型能更深刻、更高效地捕捉DNA序列中的复杂调控语言。这种将架构设计与生物学洞见深度融合的研究范式,为构建更强大、更具解释性的基因组学AI模型铺平了道路。

在实际应用中,SPACE模型的架构创新为基因组学研究提供了新思路。这种技术路径不仅提升了模型性能,还为跨物种泛化能力提供了保障。随着研究的深入,这种融合生物学原理的模型设计方法将在基因组学领域发挥更大作用。