Grok4高难度榜单刷爆是真的吗?它究竟表现如何,值得关注?

2025-10-16 10:15:04 作者:Vali编辑部

最近几天,很多人在讨论Grok4的发布会。马斯克这次选择国内时间发布,让熬夜看直播的观众终于能睡个安稳觉。发布会一开始,马斯克就强调Grok4是“最聪明的AI”,还说它的进化速度远超人类。这话听着挺有气势,但实际效果却让不少网友直呼“翻车”。

最让人意外的是Grok4的定价策略。月费30美元的基础版和300美元的Heavy版,没有免费试用额度,这价格让人感觉像是要割韭菜。网友们的吐槽也直指问题核心,价格和体验之间似乎出现了不小的落差。

我们先从发布会内容入手,再结合网友的实测反馈,看看这场备受关注的Grok4发布会到底表现如何。

一、发布会内容

这次发布会主要介绍了两个模型:Grok4和Grok4 Heavy。两者都是推理模型,前者是单代理版本,后者支持四个代理同时运行。这种设计让Grok4 Heavy在处理复杂任务时更具优势。

在HLE测试中,Grok4的表现格外亮眼。Heavy版本的得分高达44.4%,远超o3和Gemini Pro。特别是在HLE(仅文本)测试中,当使用计算、工具和多个并行代理时,得分更是突破到50.7%。这种表现让不少业内人士惊叹。

马斯克在发布会上自信表示,Grok4在学术领域比PHD级别更好,甚至预测新技术可能在今年出现,新的物理学几乎肯定在两年内被发现。这些话听起来很宏大,但实际效果才是检验标准。

除了HLE测试,Grok4在GPQA Diamond测试中也取得最高分87%,打破了Gemini Pro的84%记录。在ARC AGI测试中,得分达到新高,是Claude Opus 4的两倍。这些数据让不少观众觉得Grok4确实有实力。

在AIME25、LCB、HMMT25和USAMO25等竞赛中,Grok4都设立了新的SOTA分数。特别是在Artificial Analysis测试中,73分的成绩超过o3-pro,位居第一。这些成绩让不少观众觉得Grok4确实有潜力。

值得一提的是,Grok4的算力远超其他模型。使用10万块H100 GPU,算力是Grok-2的100倍,Grok-3的10倍。这种硬件配置让不少观众觉得Grok4确实有底气。

发布会上还展示了Grok4的实际应用。比如生成黑洞引力波动画、解数学题、创建FPS游戏等。这些演示让不少观众觉得Grok4确实有实用价值。

语音模式也是亮点之一。延迟减半,可选声音增至5种,自然感提升明显。现场演示中,Eve语音的耳语效果让人感觉像在哄睡,这种细节处理让不少观众觉得Grok4确实有温度。

虽然发布会表现不错,但实际体验才是关键。我们找来了网友的实测反馈,看看Grok4到底值不值这个价。

二、用户实测反馈

在天气卡片测试中,Grok4的表现让不少人失望。使用相同提示词,其他模型都能生成完整的代码,但Grok4只输出了一行“你没看错,就是什么都没有。”这种结果让不少用户觉得Grok4在基础功能上还有提升空间。

其他模型如Gemini 2.5 pro、Claude opus 4和o3 pro都能生成完整的天气卡片代码,效果更接近用户需求。这说明Grok4在基础功能上还有待完善。

在思考过程测试中,Grok4的表现也让人意外。深度思考下全是“thinking”,没有具体内容,还不支持设置reasoning_effort参数。这种现象让不少用户觉得Grok4在逻辑推理方面还有提升空间。

日常对话和文章写作方面,Grok4的表现相对平平。虽然能生成基本内容,但在流畅度和创意性上不如其他模型。这说明Grok4在基础能力上还有待加强。

网友的笑话测试也反映出Grok4的幽默感。虽然马斯克称其有幽默感,但网友的笑点因人而异,这说明Grok4在个性化表达方面还有提升空间。

整体来看,Grok4的跑分确实亮眼,但实际体验却让人有些失望。价格昂贵且没有免费试用,让不少用户觉得性价比不高。

三、总结

综合来看,Grok4的表现没有达到预期。虽然跑分第一名,但实际体验和价格之间的差距让不少用户觉得不值。对于普通用户来说,基础能力过硬才是首要条件。

Grok4的推理能力确实强大,但对多数用户来说,更频繁使用的基础功能才是关键。这种表现让人怀念起曾经性能有代差且价格亲民的R1。

R2什么时候才能登场呢?这个问题让不少用户感到期待。