Grok4跑分能超前吗？网友质疑背后的数据真实性？

2025-10-17 09:00:02 作者：Vali编辑部

马斯克搭帐篷熬夜开发，效果如何？近期曝光的Grok 4系列测试成绩引发热议。从HLE到GPQA，再到AIME竞赛题，各项数据都显示出新模型的强劲实力。尽管测试结果尚未经过官方确认，但这些数字已经让不少AI爱好者感到振奋。

测试成绩对比

在HLE考试中，Grok 4标准得分35%，使用推理技术后提升至45%。这个数字比OpenAI o3的20%高出两倍，远超GPT-4o的四到五倍。要知道HLE是随机猜测准确率仅5%的测试，每个百分点的提升都意味着模型理解能力的飞跃。

GPQA测试中，Grok 4得分87-88%，与OpenAI o3的顶级表现相当。这个成绩比Claude4Opus的75%高出不少。AIME竞赛题上，Grok 4达到95%的得分，远超Claude4Opus的34%，甚至比OpenAI o3的80-90%还要优秀。

编程模型Grok 4 Code在SWEBench测试中表现亮眼，得分72-75%，与Claude Opus 4持平。Terminal-Bench测试中，Claude 4 Opus以43%的得分领先，xAI尚未公布Grok-4的对应数据。

用户讨论与质疑

测试成绩引发诸多讨论，有人认为Grok 4在HLE测试中达到45%的得分，几乎是Gemini 2.5 Pro成绩的两倍。这个数据如果属实，意味着新模型通过了AI基准测试中最难的关卡。

也有网友提出质疑，认为Grok 4的HLE分数可能存在问题。他们指出，xAI此前对其他模型使用单次尝试的报告方式，但对自己的模型却采用了不同方法。@legit_api回应称这些数据是真实的，但具体配置尚不清楚。

网友分析认为，除了HLE测试外，其他成绩看起来都比较合理。但HLE测试包含大量晦涩的信息检索，能取得如此高分确实值得深究。

开发背景与功能特点

早在7月初，TestingCatalog就曝出Grok 4系列模型信息泄露。资料显示，Grok 4仅支持文本模式，视觉生成等功能将在后续推出。13万tokens的上下文窗口相比多数竞品略小，这可能意味着xAI更注重推理速度和实时可用性。

开发者中控台代码显示，Grok 4是"在自然语言、数学和推理方面拥有无可匹敌的能力"的通才模型。其训练完成时间定在6月29日，标语为"Think Bigger and Smarter"。

Grok 4 Code作为编程专用模型，支持代码问题解答和编辑器嵌入功能。马斯克在推文中表示，他正在"通宵达旦地开发Grok 4"，模型开发"进展良好"但仍需"最后一次大规模训练"。

技术团队透露，马斯克带头在办公室支起帐篷睡觉，全身心投入工作。这种开发方式让不少网友感叹："AI技术发展到这种程度，连CEO都得睡帐篷了？"

行业影响与未来展望

泄露的测试成绩不仅刺激了网友，也引发AI科技公司关注。尽管马斯克未如预期官宣Grok 4开源，但表示推特上的Grok功能已有明显提升。有网友询问Grok模型，认为7月更新是Grok 4，但不完整。

随着基准成绩曝光，Grok 4正式发布似乎已进入倒计时。如果测试数据属实，无论是架构创新还是规模扩展，都将推动AI大模型发展。这场技术竞赛的最终结果，或许将影响整个AI行业的未来走向。