导读 近年来,大语言模型(LLM,后简称大模型)的发展突飞猛进。本文将分享未来速度公司在开源领域以及大模型落地过程中的核心产品——Xinference,其定位是一个真正企业级的、严肃的大模型推理和部署平台。公司致力于在 LLMOps(大模型运维)过程中,帮助大家降低部署的成本和难度,解决在落地过程中遇到的核心问题。
1. 大模型推理基础
2. 大模型推理现状和困难
3. Xinference:企业级推理和部署
4. 未来展望
分享嘉宾|秦续业 杭州未来速度科技有限公司 联合创始人
编辑整理|向隆
内容校对|李瑶
出品社区|DataFun
01
大模型推理基础
1. LLM 推理概述
-
Embedding(嵌入):首先,输入的文本会被转换为向量表示,即嵌入过程。这一步将文本中的词汇或短语映射为高维向量,以便模型能够处理和理解。 -
Decoder(解码):接下来,解码器会基于嵌入的向量进行处理,生成下一个词的概率分布。解码器利用注意力机制和其他模型结构,预测下一个最可能的词。 -
Sampling(采样):最后,从解码器生成的概率分布中进行采样,选择一个具体的词作为输出。这一步决定了最终生成的文本内容。
-
Greedy Sampling(贪心采样):直接选择概率最高的 token 作为输出。这种方法生成的结果最为确定,但可能缺乏多样性。 -
Temperature Sampling(温度采样):通过调整温度参数,改变概率分布的平滑度。较低的温度会使模型更倾向于选择概率最高的 token,而较高的温度会增加随机性,使生成结果更具创造性。 -
Top-K Sampling:从概率分布中选择前 K 个最可能的 token,然后从中随机选择一个作为输出。这种方法在保持一定多样性的同时,限制了低概率 token 的干扰。 -
Top-P Sampling:根据累积概率选择 token,确保选择的 token 集合覆盖一定比例的总概率(如 P=0.9)。这种方法在保持多样性的同时,避免了极端低概率的 token。
2. LLM 优化技术
-
小模型(Draft Model):作为“学生”,负责初步推理。 -
大模型(Target Model):作为“老师”,负责最终决策。
-
输入的 prompt 首先交给小模型进行初步推理。 -
小模型生成初步结果后,大模型会对这些结果进行评估,决定是否接受(accept)或回滚(rollback)。 -
如果大模型接受小模型的结果,推理过程继续;如果不接受,则回滚到之前的步骤,重新生成。
-
由于小模型的计算量较小,推理速度更快,因此核心的推理过程主要在小模型中完成。 -
大模型仅在必要时介入,减少了其推理次数,从而显著提升了整体推理效率。
-
提升推理速度:通过减少大模型的计算量,显著缩短了推理时间。 -
降低计算成本:小模型的计算资源需求较低,能够有效降低硬件成本。
-
效果可能退化:由于小模型的能力有限,生成的结果可能不如大模型精确,导致最终效果有所下降。 -
复杂性增加:需要同时管理小模型和大模型的协作,增加了系统的复杂性。
-
兼容性强:几乎所有新开源的模型都会首先适配 Transformers,用户可以轻松加载和查看模型的架构。 -
灵活性高:通过 Transformers,用户可以快速支持各种新模型。
-
性能优化不足:Transformers 的设计初衷是适配模型,而非专注于推理性能优化。因此,它在并行计算、显存管理等方面的表现相对较弱。 -
吞吐率较低:由于缺乏针对推理优化的技术(如 Page Attention、持续批处理等),Transformers 的推理吞吐率无法满足高性能需求。
Xinference:企业级推理和部署
未来展望
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END