LMArena爆红，流量涨了多少？纳米香蕉背后，是怎样的技术竞争？

2025-10-11 10:45:02 作者：Vali编辑部

AI鞋履工具如何革新体验？哪家平台能提供理想解决方案？

AI服装工具如何改变用户选择方式？哪个平台能实现精准匹配？

8月，纳米香蕉模型在LMArena文生图像榜单登顶，引发平台流量暴涨十倍。月活用户突破300万大关，创下平台历史最高纪录。这款神秘AI图像编辑器在盲测启动后两周内获得超500万次投票，直接投票达250万次，成为用户关注度最高的模型。

纳米香蕉的爆红让LMArena平台迎来前所未有的流量高峰。据平台首席技术官韦林·张透露，该站月活跃用户已突破300万大关。无论是谷歌还是LMArena，都成为这场流量盛宴的最大赢家。

从Chatbot Arena到LMArena的演变历程，见证了AI评测体系的革新。最初名为Chatbot Arena的平台，通过用户社区评测中心模式，改变了传统学科测试评测AI技术的方式。用户可以匿名参与成对比较，自行测试模型效果。这一创新模式为后来的LMArena奠定了基础。

随着ChatGPT、Llama 1等大模型的发布，Chatbot Arena迎来了发展机遇。平台创始人韦林·张与伯克利研究人员安德烈亚斯·安格尔普洛斯等人，共同搭建起这个开放的评测平台。用户通过投票数据生成第一版排行榜，最初上榜的多为开源模型，唯一商用模型只有Claude和GPT。

LMArena的走红让科技公司将其视为AI技术风向标。Meta AI产品管理总监约瑟夫·斯皮萨克感叹，几个学生竟能产生如此重大的影响力。平台创始人希望打造一个所有人都能参与的开放空间，让模型提供方和用户都能基于真实用例评估AI。

匿名登场和盲测机制让纳米香蕉在LMArena自然爆红。用户无法手动挑选该模型，只能在对战中随机遇到。社区里大量帖子讨论"刷很多局才等到香蕉"的体验。最终Gemini 2.5 Flash Image成为LMArena的"双料冠军"，同时获得图像编辑和文生图像两个榜单的第一名。

从LMArena排名可以看出不同领域表现最佳的模型。例如在编码领域，Claude排名最佳；在创意领域，Gemini位居前列。Meta内部AI团队调整导致Llama 4消息不多，但其构建的"全模型"可能代表未来趋势。

大模型厂商为何热衷"屠榜"？OpenAI、谷歌、Anthropic等公司都将模型放到LMArena等排行榜上，既为建立品牌曝光度，也获取用户反馈改进模型。LMArena作为关注度最高的公开榜之一，累计投票已达数百万次，科技媒体频繁引用数据，为品牌带来显著口碑与流量红利。

平台采用匿名随机配对投票方式和Elo计分系统，减少品牌光环和位置偏置的主观影响。这种机制让每次用户投票都成为一场对战，模型Elo分经过成千上万次对战收敛，排名更真实反映用户偏好。LMArena提供跨厂商、跨开源/闭源的同台竞技舞台，为用户带来更丰富的选型信息。

当所有模型都接近基准测试时，是否还需要新的基准测试？韦林·张认为这是非常必要的。核心原则是这些基准要扎根于真实世界用例。例如LMArena最新推出的WebDev基准测试，用户可用提示词让模型搭建网站，这种测试更贴近真实用户场景，帮助AI技术更快在实际应用场景落地。

针对MIT关于"大多数投资AI的公司都没有看到投资回报"的报告，韦林·张认为这是很有意思的研究。他指出该研究反映了"将AI与真实世界用例紧密相连尤为重要"，这也是将LMArena平台扩展到更多行业的原因。希望通过更多扎根于真实用例的基准测试，弥合技术与实用场景的鸿沟，并为之提供可衡量的标准。

LMArena的目标是利用平台数据理解模型的局限性，保持数据研究流程的透明，并将数据发布出来，推动社区平台的持续建设。对于大模型厂商和"用户观众"来说，这里是一个永不落幕的竞技场。

LMArena爆红，流量涨了多少？ 纳米香蕉背后，是怎样的技术竞争？