诺奖团队的800万数据,揭示了什么生物学秘密?AI生物学,未来会带来哪些突破?
AI生物学领域迎来重大突破,Xaira Therapeutics最新发布的单细胞扰动数据集引发行业关注。这项成果不仅刷新了现有数据集的规模纪录,更在技术层面实现了关键突破,为AI虚拟细胞研究开辟了全新路径。
这项名为X-Atlas/Orion的数据集包含800万个单细胞数据,覆盖人类所有蛋白质编码基因,其测序深度达到16,000个唯一分子标识符。相比传统Perturb-seq仅能识别基因"开/关"状态,该数据集通过分析sgRNA丰度与表达拷贝数关系,首次实现基因活性梯度变化的量化。这相当于给虚拟细胞模型装上了更精密的"显微镜",让药物靶点抑制效果的测量精度大幅提升。
技术团队采用的FiCS平台解决了传统单细胞测序的批次效应和操作耗时问题,实现高通量标准化数据生产。这种"固定-冻存-单细胞测序"的创新方法,让数据集在保持高质量的同时,大幅提升了实验效率。目前该平台方法已公开,公司还计划将数据集在非商业许可下开源,为生物技术社区提供共享资源。
这项成果背后是Xaira Therapeutics的持续投入。作为成立仅一年的AI制药公司,其创始团队汇聚了诺贝尔奖得主、前基因泰克高管、顶尖AI学者等多位行业翘楚。公司科学联合创始人David Baker博士曾设计多个全球领先的蛋白质药物模型,其团队成员已全职加入Xaira。首席执行官Marc Tessier-Lavigne曾任斯坦福校长,另一位联合创始人Hetu Kamisetty曾在Meta和蛋白质设计研究所任职。
在AI制药领域,Xaira的布局远不止数据集建设。公司已获得包括ARCH、红杉资本、Lux Capital等多家顶级投资机构支持,其中ARCH Venture Partners押注2亿美元。这支由诺贝尔奖得主Carolyn Bertozzi博士领衔的顾问团队,为公司提供了跨领域的专业指导。这种人才与资本的双重加持,为技术突破奠定了坚实基础。
虚拟细胞研究正成为AI+生命科学的前沿焦点。从AlphaFold2解决蛋白质折叠问题,到如今虚拟细胞模型的快速发展,技术演进呈现出明显趋势。40位顶尖科学家在《细胞》杂志上呼吁利用AI创建虚拟人类细胞,这标志着该领域已进入实质性探索阶段。
当前,AI虚拟细胞通过计算模拟进行"虚拟实验",能够突破物理限制,高效测试多种假设。这种技术不仅在靶点发现、患者分层、药物筛选等方面展现应用潜力,更可能重构生物医学研究范式。全球多个机构已启动相关项目,如Arc Institute与10x合作开发虚拟细胞图谱,美国艾伦研究所启动"细胞景观"计划,我国也在推进人类细胞谱系大科学研究设施。
在数据层面,虚拟细胞研究依赖于多样且高质量的生物数据。基因组、转录组、蛋白质组等多层次信息,以及细胞显微成像和单细胞测序数据,都是构建模型的基础。近年来,学界和产业界正联合构建适合深度训练的生物数据库,如清华大学开发的scFoundation模型已在细胞质量提升和虚拟药物试验中发挥作用。
尽管距离实现人类细胞全尺度模拟还有很长距离,但技术进展已初见成效。算力成本的下降和大模型的飞速发展,让科学界逐步接近这一目标。Xaira的突破不仅为AI制药提供了新工具,更展现了AI技术在生命科学领域持续深化的潜力。随着更多机构加入这场技术竞赛,虚拟细胞研究或将带来更多颠覆性创新。