Grok4跑分能超前吗?网友质疑背后的数据真实性?
马斯克搭帐篷熬夜开发,效果如何?近期曝光的Grok 4系列测试成绩引发热议。从HLE到GPQA,再到AIME竞赛题,各项数据都显示出新模型的强劲实力。尽管测试结果尚未经过官方确认,但这些数字已经让不少AI爱好者感到振奋。
测试成绩对比
在HLE考试中,Grok 4标准得分35%,使用推理技术后提升至45%。这个数字比OpenAI o3的20%高出两倍,远超GPT-4o的四到五倍。要知道HLE是随机猜测准确率仅5%的测试,每个百分点的提升都意味着模型理解能力的飞跃。
GPQA测试中,Grok 4得分87-88%,与OpenAI o3的顶级表现相当。这个成绩比Claude4Opus的75%高出不少。AIME竞赛题上,Grok 4达到95%的得分,远超Claude4Opus的34%,甚至比OpenAI o3的80-90%还要优秀。
编程模型Grok 4 Code在SWEBench测试中表现亮眼,得分72-75%,与Claude Opus 4持平。Terminal-Bench测试中,Claude 4 Opus以43%的得分领先,xAI尚未公布Grok-4的对应数据。
用户讨论与质疑
测试成绩引发诸多讨论,有人认为Grok 4在HLE测试中达到45%的得分,几乎是Gemini 2.5 Pro成绩的两倍。这个数据如果属实,意味着新模型通过了AI基准测试中最难的关卡。
也有网友提出质疑,认为Grok 4的HLE分数可能存在问题。他们指出,xAI此前对其他模型使用单次尝试的报告方式,但对自己的模型却采用了不同方法。@legit_api回应称这些数据是真实的,但具体配置尚不清楚。
网友分析认为,除了HLE测试外,其他成绩看起来都比较合理。但HLE测试包含大量晦涩的信息检索,能取得如此高分确实值得深究。
开发背景与功能特点
早在7月初,TestingCatalog就曝出Grok 4系列模型信息泄露。资料显示,Grok 4仅支持文本模式,视觉生成等功能将在后续推出。13万tokens的上下文窗口相比多数竞品略小,这可能意味着xAI更注重推理速度和实时可用性。
开发者中控台代码显示,Grok 4是"在自然语言、数学和推理方面拥有无可匹敌的能力"的通才模型。其训练完成时间定在6月29日,标语为"Think Bigger and Smarter"。
Grok 4 Code作为编程专用模型,支持代码问题解答和编辑器嵌入功能。马斯克在推文中表示,他正在"通宵达旦地开发Grok 4",模型开发"进展良好"但仍需"最后一次大规模训练"。
技术团队透露,马斯克带头在办公室支起帐篷睡觉,全身心投入工作。这种开发方式让不少网友感叹:"AI技术发展到这种程度,连CEO都得睡帐篷了?"
行业影响与未来展望
泄露的测试成绩不仅刺激了网友,也引发AI科技公司关注。尽管马斯克未如预期官宣Grok 4开源,但表示推特上的Grok功能已有明显提升。有网友询问Grok模型,认为7月更新是Grok 4,但不完整。
随着基准成绩曝光,Grok 4正式发布似乎已进入倒计时。如果测试数据属实,无论是架构创新还是规模扩展,都将推动AI大模型发展。这场技术竞赛的最终结果,或许将影响整个AI行业的未来走向。