这个Intern-S1真的有那么牛?多模态推理,它能帮我做什么?
在WAIC 2025大会现场,上海AI实验室与Hinton教授的对话引发热议。而更引人关注的是实验室推出的「通专融合」大模型创新路线,其科学能力在多模态领域实现突破。
这款大模型在科学领域表现突出,却低调到让人忽略其价值。它能解析分子结构、识别地震波图、推演化学反应路径,展现出强大的科学解析力。
7月26日,上海人工智能实验室正式发布并开源「书生」科学多模态大模型Intern-S1。该模型在多模态能力上达到全球开源第一水平,文本处理能力与国内外主流模型相当,科学推理能力达到国际领先。
Intern-S1作为融合科学专业能力的基础模型,其综合性能超越当前开源模型。在语言和多模态性能上实现高水平均衡发展,具备「全能高手」的实力;同时,其富集多学科专业知识,重点强化科学能力,在化学、材料、地球等专业任务上超越顶尖闭源模型Grok-4。
传统单一模态分析在科学探索中往往难以全面捕捉复杂现象,尤其在跨学科研究中更为明显。Intern-S1通过多任务强化学习实现专业精通,开创了「多任务通专融合」新范式。
模型体验页面:
https://www.valimart.net/
GitHub链接:
https://www.valimart.net/
HuggingFace链接:
https://www.valimart.net/
ModelScope链接:
https://www.valimart.net/
开源科学多模态性能领先,重构科研生产力
Intern-S1以轻量化训练成本实现科学与通用双维度突破。在综合多模态通用能力评估中,其得分与国内外主流模型相当,展现跨文本、图像的全面理解力。
在多个专业评测集组成的科学能力测试中,Intern-S1领先Grok-4等闭源模型。评测覆盖物理、化学、材料、生物等领域的复杂任务,验证模型在科研场景中的强逻辑性与准确性。
当前大模型在聊天、绘画、代码生成等场景取得突破,但科研领域仍期待真正「懂科学」的AI伙伴。尽管主流模型在自然语言处理、图像识别等方面表现优异,但在复杂科研任务中仍存在短板。
现有开源模型普遍缺乏对复杂科学数据的深度理解,难以满足科研场景的精度和专业性要求。而性能更强的闭源模型部署门槛高、可控性弱,导致科研工作者面临高成本、低透明度的挑战。
在WAIC 2025大会现场,上海AI实验室推出Intern-S1。该模型在化学、材料、地球等专业任务中表现突出,其多模态能力达到全球开源第一水平。
联合优化系统+算法,成本直降10倍
强化学习逐渐成为大模型后训练的核心,但面临系统复杂度和稳定性挑战。Intern-S1研发团队通过训练系统与算法协同突破,实现大型多模态MoE模型在FP8精度下的高效稳定强化学习训练,其训练成本相比近期公开模型降低10倍。
系统层面采用训推分离的RL方案,通过自研推理引擎进行FP8高效率异步推理,利用数据并行均衡策略缓解长思维链解码时的长尾现象。训练过程中采用分块式FP8训练,提升训练效率。
算法层面基于Intern·BootCamp构建的大规模多任务交互环境,提出Mixture of Rewards混合奖励学习算法。在易验证任务上采用RLVR训练范式,通过规则、验证器或交互环境提供奖励信号;在难验证任务上(如对话和写作)采用奖励模型提供的奖励信号进行联合训练。
工具链全体系免费开源打造更懂科学的AI助手
书生大模型自2023年开源以来,持续降低应用门槛。首创并开源面向大模型研发的全链路工具体系,覆盖数据处理、预训练、微调、部署、评测与应用等环节,包含低成本微调框架XTuner、部署推理框架LMDeploy等核心工具。
近期进一步开源多智能体框架Intern·Agent,可应用于化学、物理、生物等领域的12种科研任务。该框架大幅提升科研效率,展现多智能体系统自主学习、持续进化的潜力。
基于Intern-S1的『书生』科学发现平台Intern-Discovery已上线,助力研究者、研究工具、研究对象三者能力全面提升,驱动科学研究迈向Scaling Law阶段。
未来,上海AI实验室将持续推进Intern-S1及其全链条工具体系开源,支持免费商用,提供线上开放服务,与各界共建更懂科学的AI助手。
Intern-S1实测
借助强大的多模态及科学能力,Intern-S1面对科学问题得心应手。下方案例展示其快速准确识别图中反应物化学式的能力。
Q:从左到右,给出图中反应物的化学式
Intern-S1: 左边反应物是顺式-2,5-二甲基哌嗪,化学式为C₆H₁₄N₂;右边是对碘溴苯,化学式为C₆H₄BrI
对比Grok的答案:C5H11N, C6H4BrI(回答错误)
Intern-S1思考过程如下:
面对艺术作品时,Intern-S1还能以科学逻辑对艺术画作进行理性赏析,用科学方式「读懂」艺术。