GLM-4.5V,开源多模态模型能做什么? 这次开源,会带来哪些新可能?

2025-10-13 11:05:16 作者:Vali编辑部

上上周一晚上,智谱开源了GLM-4.5这个大模型。没想到这才刚过两天,又突然放出多模态模型GLM-4.5v。这波操作让不少业内人士都惊呼,这模型的底气确实不一般。

从技术路线来看,GLM-4.5v是基于GLM-4.1V-Thinking架构重新训练的,专门强化了视觉多模态能力。参数量达到106B,激活参数12B,这在开源领域已经是相当大的体量了。模型在42个评测基准中取得41个SOTA成绩,这个数据量级让不少同行都开始重新评估开源模型的潜力。

我特意找来业内比较熟悉的测试题验证,比如游标卡尺的读数问题。这种需要精确区分整数和小数位的题目,普通人看都容易出错。但GLM-4.5v却在短时间内给出了正确答案,思考过程简洁明了,这种效率让人印象深刻。

接着测试小猫摸球的视觉推理题,这个问题需要识别画面中的动态元素。我盯着图片看都眼花,模型却能准确指出哪只猫摸到了毛线球,还给出了操作步骤。这种视觉推理能力在开源模型中确实少见。

在地理位置识别测试中,模型表现同样亮眼。面对横店明清宫苑和故宫的相似建筑,它能准确区分出横店的复刻场景。当被问及判断依据时,模型给出了三个清晰的逻辑点,这种深度解析能力让测试者都感到意外。

不过模型也不是完美无缺。在宫殿内景识别测试中,它误判为故宫,这让我想起横店的复刻精度确实很高,连内景细节都做得非常到位。这种情况下出错,其实也是情有可原。

视频理解功能是这次测试的亮点。我用25周年《泰坦尼克号》混剪视频测试,模型不仅能识别关键画面,还能准确标注时间点。这种时空理解能力在开源模型中确实难得一见。

视觉定位功能同样实用,无论是圈出郭导还是标记烧烤签子,模型都能精准完成。最让人惊喜的是,它还能根据指令在图片里做标记,这种交互能力让测试者都感到新奇。

网页复刻功能更是惊艳,模型能根据截图生成完整网页结构。这个效果甚至比智谱官网还要美观,这种看图写代码的能力以前只有Gemini、Claude这些闭源模型能做到。

从技术参数来看,GLM-4.5v的API定价也很有竞争力。输入2元/M tokens,输出6元/M tokens,这个价格在多模态模型中属于比较亲民的范围。模型完全开源,用户可以直接下载权重部署在自己的服务器上。

对比其他模型,GLM-4.5v的视觉推理能力确实有明显优势。在横店明清宫苑测试中,它能准确区分复刻场景,这种能力在视觉识别领域非常重要。虽然在内景识别上出现偏差,但考虑到复刻精度,这种表现已经非常出色。

视频理解功能的测试结果也令人惊喜。模型不仅能识别关键画面,还能理解时间序列和场景连贯性。这种能力在多模态模型中属于较高水平,说明模型在时空理解方面有扎实的基础。

视觉定位功能的测试显示,模型能准确识别图片中的元素。无论是人物还是物体,都能精准标记。这种能力在实际应用中非常实用,比如在图像标注、内容审核等场景都能发挥作用。

网页复刻功能的测试结果更是让人刮目相看。模型能根据截图生成完整的网页结构,这种能力在内容生成和界面设计领域有广泛应用。这种看图写代码的能力,让测试者都感到新奇。

从整体来看,GLM-4.5v在视觉推理、视频理解、视觉定位等多个维度都表现出色。虽然在某些细节上还有提升空间,但整体表现已经足够优秀。这种持续开放的态度,让测试者对国产大模型充满期待。