这场细胞科技革命,谁将掌握核心数据?百亿级数据背后的机会,究竟在哪里?

2025-10-13 10:40:08 作者:Vali编辑部

虚拟细胞(AIVC)被业内视为生物技术领域的终极目标之一。

设想一下,如果能在临床前阶段用AI模拟新药在细胞内的反应,临床阶段的失败风险就会大幅降低。

但数据不足一直是行业发展的瓶颈,不仅要涵盖基因组、转录组、蛋白质组、代谢组等多维度信息,还要应对细胞变化的复杂性。

在这种背景下,全球首个十亿级扰动单细胞数据集——Tahoe-100M,在今年2月开源后引发行业震动。

半年时间内该模型被下载近10万次,从人工智能实验室到重点研究机构,已成为构建虚拟细胞模型团队的首选工具。

踩上虚拟细胞风口,该模型背后的Tahoe Therapeutics近日宣布获得3000万美元融资,用于构建训练虚拟细胞模型的基础数据集。

本轮融资由Amplify Partners领投,Databricks Ventures、Wing Venture Capital、General Catalyst等机构参与。

融资后公司总融资额达4200万美元,估值突破1.2亿美元。

Tahoe首席执行官Nima Alidoust表示:“我们将用这些数据集为人体细胞的人工智能模型带来GPT时刻,把科学发现转化为临床价值,大幅降低药物开发的失败率。”

虚拟细胞能取代真实细胞吗?

虚拟细胞(AIVC)被业内视为生物技术领域的终极目标之一。

设想一下,如果能在临床前阶段用AI模拟新药在细胞内的反应,临床阶段的失败风险就会大幅降低。

但数据不足一直是行业发展的瓶颈,不仅要涵盖基因组、转录组、蛋白质组、代谢组等多维度信息,还要应对细胞变化的复杂性。

在这种背景下,全球首个十亿级扰动单细胞数据集——Tahoe-100M,在今年2月开源后引发行业震动。

半年时间内该模型被下载近10万次,从人工智能实验室到重点研究机构,已成为构建虚拟细胞模型团队的首选工具。

踩上虚拟细胞风口,该模型背后的Tahoe Therapeutics近日宣布获得3000万美元融资,用于构建训练虚拟细胞模型的基础数据集。

本轮融资由Amplify Partners领投,Databricks Ventures、Wing Venture Capital、General Catalyst等机构参与。

融资后公司总融资额达4200万美元,估值突破1.2亿美元。

Tahoe首席执行官Nima Alidoust表示:“我们将用这些数据集为人体细胞的人工智能模型带来GPT时刻,把科学发现转化为临床价值,大幅降低药物开发的失败率。”

开源下载破十万 踩上虚拟细胞风口

Tahoe成立于2022年,原名Vevo Therapeutics,总部位于美国加州,团队由生物学家和机器学习工程师组成。

该团队建立在加州大学旧金山分校的科学突破上,除CEO Nima Alidoust毕业于普林斯顿大学外,其他联合创始人均来自该校,包括CSO Johnny Yu以及联合创始人Hani Goodarzi、Kevin Shokat。

该公司在成立后不到三年就能够推出Tahoe-100M这样的重磅数据集,主要归功于其背后的Mosaic平台。

传统的药物筛选一次只能针对一种癌症模型,效率低下,而该平台能将来自不同患者(例如肺癌、胰腺癌等)的癌细胞汇集到一个可重复培养的“马赛克肿瘤”中。

利用该技术能在同一个实验里,一次性测试数百种药物对数十种不同遗传背景的癌细胞的影响,实现了数据生成效率的指数级提升。

最开始企业定位在AI制药领域,但该数据集的潜力与虚拟细胞领域对多样且高质量生物数据的需求不谋而合。

这些数据涵盖了基因组、转录组、蛋白质组、代谢组等多层次信息,并且过去生物学数据多为观测性(如单细胞图谱),缺乏药物扰动下的因果响应数据,导致无法预测细胞对干预的动态反应,这也是Tahoe的优势领域。

这样的能力让该数据集从其他竞品中脱颖而出,今年六月Arc Institute刚发布的开源虚拟细胞模型State,就使用了Tahoe-100M 作为训练数据的一部分。

在进行基准测试时,Arc发现它的准确性是其他 AI 模型的两倍,并且还击败了之前击败其他基础模型的更简单的机器学习程序。

剑指百亿级 布局AI制药领域

获得融资后,该团队计划生成10亿个单细胞数据点,绘制100万个药物分子与患者的相互作用,这是以前不可能实现的规模。

在之前的媒体访谈中,联合创始人Johnny Yu曾表示:Tahoe-100M作为十亿级数据集包含了1亿个单细胞数据点。

而新计划的集合数据点达到10亿个,为之前的十倍,这代表着Tahoe最终完成的数据集有望达到百亿规模。

这个新数据集将扩展生物基础模型的边界,旨在降低临床试验失败率,加速精准药物的开发,无论哪个模型最终摘得“虚拟细胞”的桂冠,该公司都能提供背后有力的“训练燃料”。

商业模式方面,该公司打算在保留其数据集专有性的同时,选择一家大型制药公司或人工智能公司来共享数据并加速转化为临床结果。

目前该合作伙伴尚未被选中,但Tahoe正在与不同的公司合作开展较小的项目。并有一种针对“主要癌症亚型”的候选药物处于研发阶段。

虚拟细胞能改变制药行业格局吗?

虚拟细胞(AIVC)被业内视为生物技术领域的终极目标之一。

设想一下,如果能在临床前阶段用AI模拟新药在细胞内的反应,临床阶段的失败风险就会大幅降低。

但数据不足一直是行业发展的瓶颈,不仅要涵盖基因组、转录组、蛋白质组、代谢组等多维度信息,还要应对细胞变化的复杂性。

在这种背景下,全球首个十亿级扰动单细胞数据集——Tahoe-100M,在今年2月开源后引发行业震动。

半年时间内该模型被下载近10万次,从人工智能实验室到重点研究机构,已成为构建虚拟细胞模型团队的首选工具。

踩上虚拟细胞风口,该模型背后的Tahoe Therapeutics近日宣布获得3000万美元融资,用于构建训练虚拟细胞模型的基础数据集。

本轮融资由Amplify Partners领投,Databricks Ventures、Wing Venture Capital、General Catalyst等机构参与。

融资后公司总融资额达4200万美元,估值突破1.2亿美元。

Tahoe首席执行官Nima Alidoust表示:“我们将用这些数据集为人体细胞的人工智能模型带来GPT时刻,把科学发现转化为临床价值,大幅降低药物开发的失败率。”

虚拟细胞能取代真实细胞吗?

虚拟细胞(AIVC)被业内视为生物技术领域的终极目标之一。

设想一下,如果能在临床前阶段用AI模拟新药在细胞内的反应,临床阶段的失败风险就会大幅降低。

但数据不足一直是行业发展的瓶颈,不仅要涵盖基因组、转录组、蛋白质组、代谢组等多维度信息,还要应对细胞变化的复杂性。

在这种背景下,全球首个十亿级扰动单细胞数据集——Tahoe-100M,在今年2月开源后引发行业震动。

半年时间内该模型被下载近10万次,从人工智能实验室到重点研究机构,已成为构建虚拟细胞模型团队的首选工具。

踩上虚拟细胞风口,该模型背后的Tahoe Therapeutics近日宣布获得3000万美元融资,用于构建训练虚拟细胞模型的基础数据集。

本轮融资由Amplify Partners领投,Databricks Ventures、Wing Venture Capital、General Catalyst等机构参与。

融资后公司总融资额达4200万美元,估值突破1.2亿美元。

Tahoe首席执行官Nima Alidoust表示:“我们将用这些数据集为人体细胞的人工智能模型带来GPT时刻,把科学发现转化为临床价值,大幅降低药物开发的失败率。”

开源下载破十万 踩上虚拟细胞风口

Tahoe成立于2022年,原名Vevo Therapeutics,总部位于美国加州,团队由生物学家和机器学习工程师组成。

该团队建立在加州大学旧金山分校的科学突破上,除CEO Nima Alidoust毕业于普林斯顿大学外,其他联合创始人均来自该校,包括CSO Johnny Yu以及联合创始人Hani Goodarzi、Kevin Shokat。

该公司在成立后不到三年就能够推出Tahoe-100M这样的重磅数据集,主要归功于其背后的Mosaic平台。

传统的药物筛选一次只能针对一种癌症模型,效率低下,而该平台能将来自不同患者(例如肺癌、胰腺癌等)的癌细胞汇集到一个可重复培养的“马赛克肿瘤”中。

利用该技术能在同一个实验里,一次性测试数百种药物对数十种不同遗传背景的癌细胞的影响,实现了数据生成效率的指数级提升。

最开始企业定位在AI制药领域,但该数据集的潜力与虚拟细胞领域对多样且高质量生物数据的需求不谋而合。

这些数据涵盖了基因组、转录组、蛋白质组、代谢组等多层次信息,并且过去生物学数据多为观测性(如单细胞图谱),缺乏药物扰动下的因果响应数据,导致无法预测细胞对干预的动态反应,这也是Tahoe的优势领域。

这样的能力让该数据集从其他竞品中脱颖而出,今年六月Arc Institute刚发布的开源虚拟细胞模型State,就使用了Tahoe-100M 作为训练数据的一部分。

在进行基准测试时,Arc发现它的准确性是其他 AI 模型的两倍,并且还击败了之前击败其他基础模型的更简单的机器学习程序。

剑指百亿级 布局AI制药领域

获得融资后,该团队计划生成10亿个单细胞数据点,绘制100万个药物分子与患者的相互作用,这是以前不可能实现的规模。

在之前的媒体访谈中,联合创始人Johnny Yu曾表示:Tahoe-100M作为十亿级数据集包含了1亿个单细胞数据点。

而新计划的集合数据点达到10亿个,为之前的十倍,这代表着Tahoe最终完成的数据集有望达到百亿规模。

这个新数据集将扩展生物基础模型的边界,旨在降低临床试验失败率,加速精准药物的开发,无论哪个模型最终摘得“虚拟细胞”的桂冠,该公司都能提供背后有力的“训练燃料”。

商业模式方面,该公司打算在保留其数据集专有性的同时,选择一家大型制药公司或人工智能公司来共享数据并加速转化为临床结果。

目前该合作伙伴尚未被选中,但Tahoe正在与不同的公司合作开展较小的项目。并有一种针对“主要癌症亚型”的候选药物处于研发阶段。

虚拟细胞能改变制药行业格局吗?