Grok4高难度榜单刷爆是真的吗？它究竟表现如何，值得关注？

2025-10-16 10:15:04 作者：Vali编辑部

最近几天，很多人在讨论Grok4的发布会。马斯克这次选择国内时间发布，让熬夜看直播的观众终于能睡个安稳觉。发布会一开始，马斯克就强调Grok4是“最聪明的AI”，还说它的进化速度远超人类。这话听着挺有气势，但实际效果却让不少网友直呼“翻车”。

最让人意外的是Grok4的定价策略。月费30美元的基础版和300美元的Heavy版，没有免费试用额度，这价格让人感觉像是要割韭菜。网友们的吐槽也直指问题核心，价格和体验之间似乎出现了不小的落差。

我们先从发布会内容入手，再结合网友的实测反馈，看看这场备受关注的Grok4发布会到底表现如何。

一、发布会内容

这次发布会主要介绍了两个模型：Grok4和Grok4 Heavy。两者都是推理模型，前者是单代理版本，后者支持四个代理同时运行。这种设计让Grok4 Heavy在处理复杂任务时更具优势。

在HLE测试中，Grok4的表现格外亮眼。Heavy版本的得分高达44.4%，远超o3和Gemini Pro。特别是在HLE（仅文本）测试中，当使用计算、工具和多个并行代理时，得分更是突破到50.7%。这种表现让不少业内人士惊叹。

马斯克在发布会上自信表示，Grok4在学术领域比PHD级别更好，甚至预测新技术可能在今年出现，新的物理学几乎肯定在两年内被发现。这些话听起来很宏大，但实际效果才是检验标准。

除了HLE测试，Grok4在GPQA Diamond测试中也取得最高分87%，打破了Gemini Pro的84%记录。在ARC AGI测试中，得分达到新高，是Claude Opus 4的两倍。这些数据让不少观众觉得Grok4确实有实力。

在AIME25、LCB、HMMT25和USAMO25等竞赛中，Grok4都设立了新的SOTA分数。特别是在Artificial Analysis测试中，73分的成绩超过o3-pro，位居第一。这些成绩让不少观众觉得Grok4确实有潜力。

值得一提的是，Grok4的算力远超其他模型。使用10万块H100 GPU，算力是Grok-2的100倍，Grok-3的10倍。这种硬件配置让不少观众觉得Grok4确实有底气。

发布会上还展示了Grok4的实际应用。比如生成黑洞引力波动画、解数学题、创建FPS游戏等。这些演示让不少观众觉得Grok4确实有实用价值。

语音模式也是亮点之一。延迟减半，可选声音增至5种，自然感提升明显。现场演示中，Eve语音的耳语效果让人感觉像在哄睡，这种细节处理让不少观众觉得Grok4确实有温度。

虽然发布会表现不错，但实际体验才是关键。我们找来了网友的实测反馈，看看Grok4到底值不值这个价。

二、用户实测反馈

在天气卡片测试中，Grok4的表现让不少人失望。使用相同提示词，其他模型都能生成完整的代码，但Grok4只输出了一行“你没看错，就是什么都没有。”这种结果让不少用户觉得Grok4在基础功能上还有提升空间。

其他模型如Gemini 2.5 pro、Claude opus 4和o3 pro都能生成完整的天气卡片代码，效果更接近用户需求。这说明Grok4在基础功能上还有待完善。

在思考过程测试中，Grok4的表现也让人意外。深度思考下全是“thinking”，没有具体内容，还不支持设置reasoning_effort参数。这种现象让不少用户觉得Grok4在逻辑推理方面还有提升空间。

日常对话和文章写作方面，Grok4的表现相对平平。虽然能生成基本内容，但在流畅度和创意性上不如其他模型。这说明Grok4在基础能力上还有待加强。

网友的笑话测试也反映出Grok4的幽默感。虽然马斯克称其有幽默感，但网友的笑点因人而异，这说明Grok4在个性化表达方面还有提升空间。

整体来看，Grok4的跑分确实亮眼，但实际体验却让人有些失望。价格昂贵且没有免费试用，让不少用户觉得性价比不高。

三、总结

综合来看，Grok4的表现没有达到预期。虽然跑分第一名，但实际体验和价格之间的差距让不少用户觉得不值。对于普通用户来说，基础能力过硬才是首要条件。

Grok4的推理能力确实强大，但对多数用户来说，更频繁使用的基础功能才是关键。这种表现让人怀念起曾经性能有代差且价格亲民的R1。

R2什么时候才能登场呢？这个问题让不少用户感到期待。