LMArena爆红,流量涨了多少? 纳米香蕉背后,是怎样的技术竞争?

2025-10-11 10:45:02 作者:Vali编辑部

AI鞋履工具如何革新体验?哪家平台能提供理想解决方案?

AI服装工具如何改变用户选择方式?哪个平台能实现精准匹配?

8月,纳米香蕉模型在LMArena文生图像榜单登顶,引发平台流量暴涨十倍。月活用户突破300万大关,创下平台历史最高纪录。这款神秘AI图像编辑器在盲测启动后两周内获得超500万次投票,直接投票达250万次,成为用户关注度最高的模型。

纳米香蕉的爆红让LMArena平台迎来前所未有的流量高峰。据平台首席技术官韦林·张透露,该站月活跃用户已突破300万大关。无论是谷歌还是LMArena,都成为这场流量盛宴的最大赢家。

从Chatbot Arena到LMArena的演变历程,见证了AI评测体系的革新。最初名为Chatbot Arena的平台,通过用户社区评测中心模式,改变了传统学科测试评测AI技术的方式。用户可以匿名参与成对比较,自行测试模型效果。这一创新模式为后来的LMArena奠定了基础。

随着ChatGPT、Llama 1等大模型的发布,Chatbot Arena迎来了发展机遇。平台创始人韦林·张与伯克利研究人员安德烈亚斯·安格尔普洛斯等人,共同搭建起这个开放的评测平台。用户通过投票数据生成第一版排行榜,最初上榜的多为开源模型,唯一商用模型只有Claude和GPT。

LMArena的走红让科技公司将其视为AI技术风向标。Meta AI产品管理总监约瑟夫·斯皮萨克感叹,几个学生竟能产生如此重大的影响力。平台创始人希望打造一个所有人都能参与的开放空间,让模型提供方和用户都能基于真实用例评估AI。

匿名登场和盲测机制让纳米香蕉在LMArena自然爆红。用户无法手动挑选该模型,只能在对战中随机遇到。社区里大量帖子讨论"刷很多局才等到香蕉"的体验。最终Gemini 2.5 Flash Image成为LMArena的"双料冠军",同时获得图像编辑和文生图像两个榜单的第一名。

从LMArena排名可以看出不同领域表现最佳的模型。例如在编码领域,Claude排名最佳;在创意领域,Gemini位居前列。Meta内部AI团队调整导致Llama 4消息不多,但其构建的"全模型"可能代表未来趋势。

大模型厂商为何热衷"屠榜"?OpenAI、谷歌、Anthropic等公司都将模型放到LMArena等排行榜上,既为建立品牌曝光度,也获取用户反馈改进模型。LMArena作为关注度最高的公开榜之一,累计投票已达数百万次,科技媒体频繁引用数据,为品牌带来显著口碑与流量红利。

平台采用匿名随机配对投票方式和Elo计分系统,减少品牌光环和位置偏置的主观影响。这种机制让每次用户投票都成为一场对战,模型Elo分经过成千上万次对战收敛,排名更真实反映用户偏好。LMArena提供跨厂商、跨开源/闭源的同台竞技舞台,为用户带来更丰富的选型信息。

当所有模型都接近基准测试时,是否还需要新的基准测试?韦林·张认为这是非常必要的。核心原则是这些基准要扎根于真实世界用例。例如LMArena最新推出的WebDev基准测试,用户可用提示词让模型搭建网站,这种测试更贴近真实用户场景,帮助AI技术更快在实际应用场景落地。

针对MIT关于"大多数投资AI的公司都没有看到投资回报"的报告,韦林·张认为这是很有意思的研究。他指出该研究反映了"将AI与真实世界用例紧密相连尤为重要",这也是将LMArena平台扩展到更多行业的原因。希望通过更多扎根于真实用例的基准测试,弥合技术与实用场景的鸿沟,并为之提供可衡量的标准。

LMArena的目标是利用平台数据理解模型的局限性,保持数据研究流程的透明,并将数据发布出来,推动社区平台的持续建设。对于大模型厂商和"用户观众"来说,这里是一个永不落幕的竞技场。