华人团队解锁数据新招,扩散模型真的能超常发挥吗?这波技术革新,谁能从中受益?
Token危机真的要解除了吗?
最新研究发现,在token数量受限的情况下,扩散语言模型的数据潜力可达自回归模型的三倍多。
不仅如此,一个参数规模为1B的扩散模型,用1B tokens进行480个周期的训练,就在HellaSwag和MMLU基准上分别取得56%和33%的准确率,且未使用任何技巧或数据筛选。
更令人惊讶的是,即使是在如此极端的重复下,模型都未出现性能饱和,这表明此模型甚至还可以从这1B数据中挖掘出更多有用信息。
论文一作Jinjie Ni在x上详细介绍了其团队的研究结论和方法。
下面让我们详细了解更多细节。
扩散模型在数据学习上确实有独到之处
扩散模型在数据学习上确实有独到之处。这种模型通过双向建模和高密度计算,能够更充分地挖掘数据中的信息。相比传统自回归模型,扩散模型在训练过程中可以同时考虑上下文的双向信息,这使得它在处理非因果数据时更具优势。
自回归模型只能从前向上下文预测,这种严格因果限制让它们在面对复杂模式时显得力不从心。而扩散模型通过双向建模打破了这种限制,能够更全面地利用数据。这种机制让模型在处理代码、生物序列等非因果数据时表现得更为出色。
此外,扩散模型在训练和推理过程中投入了更多计算资源,通过多次处理数据和迭代优化预测,提高了计算密度和模型性能。这种高密度计算让模型在数据有限的情况下依然能保持较高的学习效果。
自回归模型虽然在计算效率上有优势,但这种优先考虑效率的策略也让它们在数据潜力上显得逊色。随着计算成本下降,数据的可获得性成为关键瓶颈,这正是研究团队开展DLMs研究的出发点。
扩散模型在预训练时会对每个数据点进行多种掩码比例和组合的扰动,这种设计让模型在训练过程中能更有效地获得准确的期望估计。这也是为什么多次重复使用数据能带来显著提升的原因。
尽管扩散模型对数据重复具有一定的鲁棒性,但当训练足够多的周期后,它们也会出现过拟合现象。这种现象在实际应用中需要特别关注。
研究团队观察到,模型开始过拟合的训练周期数与独特数据量呈正相关,与模型规模呈负相关。也就是说,独特数据量越大,过拟合出现得越晚;而模型规模越大,过拟合则越早发生。
除了得出上述结论,研究者还发现当模型在预训练验证集上“过拟合”时,它们在下游任务中的性能不一定会下降,反而可能会一直上升,直到训练结束。
这种现象的出现与验证损失的计算方式有关。验证损失是以绝对的交叉熵损失(负对数似然,NLL)来衡量的,而下游任务的准确率基于比较不同选项的相对交叉熵损失。因此,绝对NLL值的变化并不一定转化为其相对顺序的变化。
上图中,研究者展示了在64个训练周期内,一个参数规模为1B的自回归模型在使用1.5B tokens进行训练时,其多选评测中真实答案与其他选项的平均负对数似然(NLL)、以及它们之间差值(△NLL)的变化情况。
值得注意的是,即使在第一个验证检查点(训练3600步后),模型对真实答案的NLL值已经显著较低,这表明模型早期就具备优先为正确选项分配更高logits的能力。
然而,随着训练的继续,模型开始出现过拟合,导致真实答案和错误选项的NLL值均有所上升。但有趣的是,即便出现了“过拟合”,真实答案与其他选项之间的NLL差距依然持续扩大,这说明模型的判别能力在验证损失上升的情况下仍在不断提升。
一个合理的解释是,模型反复接触有限的训练数据后,可能会对某些文本片段过于自信,从而放大了错误预测的NLL值。然而,真实答案与其他选项之间的相对NLL差距不断拉大,表明模型的判别能力仍在持续提升。
类似的道理也适用于生成式评估(即在单个token级别进行选择)。因此,研究者推测,模型对非关键token的错误过度自信,对整体任务性能影响有限。
之后,团队将在研究中使用更大模型和更多独特数据,进一步验证这一假设。
研究团队的背景与贡献
这项研究由Jinjie Ni带领的团队完成。Jinjie Ni本科毕业于西北工业大学电气工程专业,博士毕业于新加坡南洋理工大学计算机科学专业。他在学术界和产业界都有丰富经验,曾于2019年任哈佛大学应用计算科学研究所助理,2022年任阿里巴巴达摩院研究实习生。目前他是新加坡国立大学SEA AI研究员,与Michael Shieh教授共同开展研究。
Michael Shieh(谢其哲)是一位经验丰富的计算机科学家,本科就读于上海交通大学ACM班,硕士和博士均毕业于卡内基梅隆大学。他目前担任新加坡国立大学计算机科学系助理教授,曾在谷歌DeepMind与Quoc Le和Thang Luong合作过两年。
这项研究的成果为AI领域带来了新的视角。通过对比不同模型在数据学习上的表现,研究团队揭示了扩散模型在数据潜力方面的优势。这种探索不仅有助于理解模型的训练机制,也为实际应用提供了新的思路。
研究团队的持续努力让AI技术的发展更加清晰。未来,随着更多数据和更大模型的加入,扩散模型在数据学习上的潜力有望进一步释放。这种技术进步将为AI工具的应用带来更多可能性。