Scaling Laws是什么?深度学习的突破点究竟在哪?

2025-10-11 11:10:15 作者:Vali编辑部

AI扩展定律的起源之争?谁才是真正的先驱?

从贝尔实验室到OpenAI,Scaling Law如何影响AI发展?

咱们来聊聊这事儿。最近AI圈掀起了一场关于扩展定律的讨论,有人说是2020年OpenAI提出的,有人说是2017年百度发现的,还有的说这事儿早在1993年就有人研究了。这事儿可真有意思,咱们就从头说说。

上世纪90年代,贝尔实验室的几位大佬就开始研究AI学习规律了。他们发现随着训练数据量增加,模型性能会有规律性提升。这和现在大家熟悉的扩展定律其实是一个道理。当时研究者用数学方法证明了这种关系,而且数据量越大效果越明显。这事儿说明AI的发展规律早就被发现,只是后来才被广泛应用。

说到扩展定律,咱们得先明白它到底是什么。简单来说,就是模型性能和数据量、参数量之间存在某种数学关系。比如训练数据越多,模型表现越好;参数越多,模型越强大。这种关系在AI发展过程中一直存在,从最初的机器学习到现在的超大规模模型,都验证了这个规律。

贝尔实验室的这项研究其实早就发现了这个规律,只是当时没引起足够重视。后来OpenAI等机构通过大规模实验验证了这个理论,才让扩展定律真正被广泛认可。这说明AI的发展不是突然爆发的,而是几十年来理论与实践的不断积累。

贝尔实验室的Scaling Law

这项研究最早出现在NeurIPS顶会上,论文题目是《学习曲线:渐近值与收敛速度》。作者们发现,随着训练数据量增加,模型的错误率会呈现规律性变化。这就像我们做实验时观察到的曲线,数据越多,模型表现越稳定。

研究者们通过大量实验验证了这个规律,证明了模型规模扩大确实能带来性能提升。这和现在大家熟知的扩展定律其实是一个道理。只是当时研究者用数学方法证明了这种关系,而且数据量越大效果越明显。

作者群像:从国宝到疯狂科学家

这篇论文的五位作者都是AI界的大咖。Corinna Cortes是支持向量机的奠基人之一,她的研究影响了整个机器学习领域。Larry Jackel是贝尔实验室的元老,和LeCun合作过多项重要研究。Sara Solla是神经科学家,她的研究为现代AI打下了理论基础。

Vladimir Vapnik是统计学习理论的奠基人,他提出的VC理论至今仍是AI研究的重要基础。John Denker则是个多面手,既是物理学家又是计算机科学家,还发明过低能耗计算系统。这些大佬们的研究成果,才让扩展定律真正成为AI发展的基石。

Scaling Law的历史还能往前追溯

其实早在上世纪60年代,Vapnik就研究过样本大小对模型性能的影响。心理学领域更早发现了学习曲线规律,Frank Rosenblatt在1958年提出的感知器理论也包含类似规律。日本学者Amari在1992年提出的理论,甚至比贝尔实验室的研究更早。

这些研究都指向同一个结论:模型性能和数据量之间存在数学关系。只是不同领域研究者从不同角度发现了这个规律,最终汇聚成今天我们熟知的扩展定律。这说明AI的发展不是突然爆发的,而是几十年来理论与实践的不断积累。

从心理学的学习曲线,到感知器的早期探索,再到Vapnik、Amari、贝尔实验室的系统化研究,最后发展到OpenAI等机构在大规模实验中验证和推广,每一代学者都在为这条「经验定律」添砖加瓦。

咱们现在说的扩展定律,看似清晰而坚固,但它背后蕴含的是数十年理论与实践的反复印证。正如Brockman所说,它揭示了深度学习的根本,而这一「根本」并不是一蹴而就的,而是科学探索在时间长河中的积累与沉淀。

这事儿可真有意思,咱们现在看到的AI发展规律,其实早就被发现并验证过了。只是随着技术进步,这些规律才被广泛应用。未来AI还会继续发展,但这条经验定律估计还会继续发挥作用。