一、当前LLM训练和推理遇到了哪些瓶颈
-
训练效率低下:传统的LLMs训练依赖于下一个Token的预测损失,但这种方法在推理能力方面存在效率低下的问题。
-
推理能力有限:模型在处理复杂推理任务时,往往受限于局部模式识别,缺乏对长期依赖性的把握。
-
生产速度慢:在推理时,现有的LLMs通常采用自回归生成,速度较慢
因此,Meta提出一种新的训练方法:
![图片[2]-加速推理6.4倍!Meta发布多Token推理框架 - AI资源导航站-AI资源导航站](https://www.aitube.vip/wp-content/uploads/2025/03/20250314_67d3c1ed94189.png)
-
让模型在训练语料的每个位置同时预测接下来的n个Token, 每个独立的token各自计算交叉计算损失。
-
n个Token独立的输出头,又基于共享模型主干来并行预测每个未来的Token。
-
为了加速推理,提出一种高效的内存使用策略,通过调整前向和后向传播的顺序来减少GPU内存占用。将峰值GPU内存占用从O(nV + d)降低到O(V + d),显著减少了内存需求,而且没有牺牲模型的运行时间。
二、加速推理的策略
在当前的大型语言模型(LLMs)中,词汇表的大小V远大于潜在表示的维度d,因此,Logit向量成为GPU内存使用的瓶颈。如果简单的实现多Token预测器,所有Logit及其梯度形状都是(n, V),这严重限制了批量计算以及GPU内存均衡的使用率。
因此,通过调整前向和后向操作的顺序,在通过共享主干进行前向传递后,顺序地计算每个独立输出头的前向和后向传递,累积在主干的梯度上。虽然这样做会为输出头创建Logit(及其梯度),但这些在继续下一个输出头之前会被释放,只需要长期存储d维主干梯度即可。
操作顺序如下图所示:
![图片[3]-加速推理6.4倍!Meta发布多Token推理框架 - AI资源导航站-AI资源导航站](https://www.aitube.vip/wp-content/uploads/2025/03/20250314_67d3c1ee7350c.png)
三、亮点与不足
亮点
-
创新的训练方法:提出的多Token预测方法为LLMs的训练提供了一种新的视角。 -
显著的性能提升:实验结果表明,该方法在编码和自然语言模型上都取得了显著的性能提升。 -
推理速度的大幅提升:多Token预测模型在推理时能够实现更快的解码速度,对于实时应用具有重要意义。
不足
![图片[4]-加速推理6.4倍!Meta发布多Token推理框架 - AI资源导航站-AI资源导航站](https://www.aitube.vip/wp-content/uploads/2025/03/accesswximgaid94045urlaHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9KblFpYVRjSHdJRW5jaDB0dmpyYTJvc0JQS1ZJRVBwMGtZZjRCYTJIQWdPTk1QRTBaTFlxWUxSUWFCbEMzNWpjQ3FYeHNYY0pQVEJsYXdna0tyTlpOMmcvNjQwP3d4X2ZtdD1wbmcmYW1wfromappmsg.png)
-
模型规模的依赖性:多Token预测的优势在较大规模的模型上更为明显,对于小型模型可能效果有限。 -
任务适用性:虽然在编码和某些自然语言处理任务上取得了成功,但该方法在其他类型的任务上的表现仍需进一步研究。 -
实现复杂性:多Token预测的架构和训练过程相对复杂,需要对现有训练框架进行调整。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END