谢耳朵AI真有那么神?分子式技术它靠谱吗?
当马斯克的Grok-4还在用幽默模式讲冷笑话时,中国科学家已经用书生Intern-S1默默破解了癌症药物靶点的密码。这种既专业又酷炫的AI工具,让科研工作者看到了全新的可能性。
去年AI预测蛋白质结构获得诺贝尔奖后,AI for Science领域关注度飙升。近两年大模型技术的突破,让科研工作者期待出现真正能助力研究的AI利器。现在,这种期待终于有了答案。
7月26日,上海人工智能实验室正式发布并开源科学多模态大模型Intern-S1,其多模态能力在全球开源模型中领先,文本处理能力媲美国际一流模型。作为融合科学专业能力的基础模型,Intern-S1在综合性能上达到当前开源模型最优水平。
基于Intern-S1的科学发现平台Intern-Discovery也同步上线,帮助研究者、研究工具和研究对象三者能力全面提升。这种协同演进模式,让科研从团队单点探索迈向科学发现的规模化阶段。
Intern-S1体验页面:https://www.valimart.net/
中国开源模型通过算法优化和开源协作生态,在性能接近甚至超越国际领先闭源模型的同时,大幅降低算力需求。例如DeepSeek-R1以开源模式对标OpenAI的o1模型,在数学推理等任务上达到相近性能,但训练成本远低于后者;Intern-S1在科学推理任务上超越xAI的Grok-4,训练算力消耗仅为后者的1%,展现出更高的计算效率。
性能领先的开源科学多模态模型重构科研生产力
Intern-S1以轻量化训练成本达成科学/通用双维度性能突破。在综合多模态通用能力评估中,其得分比肩国内外一流模型,展现跨文本、图像的全面理解力。这种评估为多项通用任务评测基准均分,证明其多场景任务中的鲁棒性与适应性。
在多个领域专业评测集组成的科学能力评测中,Intern-S1领先Grok-4等最新闭源模型。评测覆盖物理、化学、材料、生物等领域的复杂专业任务,验证了模型在科研场景的强逻辑性与准确性,树立行业新标杆。
当大模型在聊天、绘画、代码生成等场景持续突破时,科研领域仍在期待真正懂科学的AI伙伴。尽管主流模型在自然语言处理、图像识别等方面表现优异,但在面对复杂精细的科研任务时仍显不足。一方面,现有开源模型缺乏对复杂科学数据的深度理解;另一方面,性能更强的闭源模型部署门槛高、可控性弱,导致科研工作者面临高成本、低透明的现实挑战。
在2025世界人工智能大会(WAIC 2025)科学前沿全体会议上,上海AI实验室发布『书生』科学多模态大模型Intern-S1。该模型首创“跨模态科学解析引擎”,可精准解读化学分子式、蛋白质结构、地震波信号等多种复杂科学数据,并具备预测化合物合成路径、判断化学反应可行性、识别地震波事件等前沿科研能力,真正让AI从“对话助手”进化为“科研搭档”,助力全面重构科研生产力。
得益于强大的科学解析能力,Intern-S1在化学、材料、地球等多学科专业任务基准上超越顶尖闭源模型Grok-4,展现出卓越的科学推理与理解能力。在多模态综合能力方面,其表现同样亮眼,全面领先InternVL3、Qwen2.5-VL等主流开源模型,堪称“全能高手”中的“科学明星”。
基于Intern-S1的跨模态生物信息感知与整合能力,上海AI实验室联合临港实验室、上海交通大学、复旦大学、MIT等研究机构共同参与构建了多智能体虚拟疾病学家系统——“元生”(OriGene)。该系统已在肝癌和结直肠癌治疗领域提出新靶点GPR160和ARG2,并经真实临床样本和动物实验验证,形成科学闭环。
体系化的技术创新为Intern-S1的能力突破提供了有效支撑。自书生大模型首次发布以来,上海AI实验室已构建起丰富的书生大模型家族,包括大语言模型书生·浦语InternLM、多模态模型书生·万象InternVL、强推理模型书生·思辨等。这些模型覆盖不同应用场景,为科研工作者提供多样化工具选择。
联合优化系统+算法,大规模强化学习成本直降10倍
当前强化学习逐渐成为大模型后训练的核心,但面临系统复杂度和稳定性的挑战。得益于训练系统与算法层面的协同突破,Intern-S1研发团队成功实现大型多模态MoE模型在FP8精度下的高效稳定强化学习训练,其强化学习训练成本相比近期公开的Mo比模型降低10倍。
在系统层面,Intern-S1研究团队采用训推分离的RL方案,通过自研推理引擎进行FP8高效率大规模异步推理,利用数据并行均衡策略缓解长思维链解码时的长尾现象;在训练过程中同样采用分块式FP8训练,大大提升训练效率。后续,训练系统也将开源。
在算法层面,基于Intern·BootCamp构建的大规模多任务交互环境,研究团队提出Mixture of Rewards混合奖励学习算法,融合多种奖励和反馈信号,在易验证任务上采用RLVR训练范式;在难验证任务(如对话和写作)上采用奖励模型提供的奖励信号进行联合训练。同时,训练算法集成了上海AI实验室在大模型强化学习训练策略上的多项研究成果,实现训练效率和稳定性的显著提升。
工具链全体系开源,免费开放打造更懂科学的AI助手
书生大模型自2023年正式开源以来,已陆续迭代升级多个版本,并持续降低大模型应用及研究门槛。书生大模型首创并开源了面向大模型研发与应用的全链路开源工具体系,覆盖数据处理、预训练、微调、部署、评测与应用等关键环节,包含低成本微调框架XTuner、部署推理框架LMDeploy、评测框架OpenCompass、高效文档解析工具MinerU,以及思索式AI搜索应用MindSearch等核心工具全面开源,已形成涵盖数十万开发者参与的活跃开源社区。
近期,上海AI实验室进一步开源了多智能体框架Intern·Agent,可广泛应用于化学、物理、生物等领域的12种科研任务。这种工具不仅大幅提升科研效率,也展现出多智能体系统自主学习、持续进化的潜力,为人工智能自主完成算法设计、科学发现等高端科研任务开辟了新路径。
基于Intern-S1的『书生』科学发现平台Intern-Discovery亦于近日上线,助力研究者、研究工具、研究对象三者能力全面提升、协同演进,驱动科学研究从团队单点探索迈向科学发现Scaling Law阶段。
未来,在研究范式创新及模型能力提升的基础上,上海AI实验室将推进Intern-S1及其全链条工具体系持续开源,支持免费商用,同时提供线上开放服务,与各界共同拥抱更广阔的开源生态,携手打造更懂科学的AI助手。