
长文本大模型推理实践——
以KVCache为中心的分离
式推理架构
演讲人:唐飞虎
月之暗面研发工程师开发者关系负责人
目录
01长文本推理的瓶颈02长文本推理的优化
03Mooncake的实践04上下文缓存的应用
长文本推理的瓶颈
RAG
•Pros.
○无需额外训练
○速度快
○成本低
○工程方案成熟
○可设计多级检索方案
•Cros.
○Embedding召回效果直接影响模型回答效果
○无法处理复杂逻辑
○对多模态支持不足
Long-Context
•Pros.
○无需额外训练
○上下文兼顾更全面
○可处理复杂逻辑和依赖
•Cros.
○贵且慢
○长度有限
Long-Context
•Pros.
○无需额外训练
○上下文兼顾更全面
○可处理复杂逻辑和依赖
•Cros.
○贵且慢
○长度有限
长文本:有点贵
长文本:有点慢
Long-Context性能瓶颈
•并发性能随着上下文长度的增加而反比下降。
•预填充延迟随上下文长度的增长而呈平方级别
的增长。
•解码延迟和上下文切换开销随上下文长度的增
加而线性增加。
Long-Context性能瓶颈
•并发性能随着上下文长度的增加而反比下降。
•预填充延迟随上下文长度的增长而呈平方级别
的增长。
•解码延迟和上下文切换开销随上下文长度的增
加而线性增加。
长文本推理的优化
Long-Context推理优化
•硬件
○A100MemoryHierarchy
•机器学习工程
○FlashAttention
○vLLM
•模型架构
○MoE
○SpeculativeDecoding
Long-Context推理优化
•Layer
○ConfidentAdaptiveLanguageModeling,2022
○CoLT5:FasterLong-RangeTransformerswithConditional
Computation,2023
○LayerSkip:EnablingEarlyExitInferenceandSelf-Speculative
Decoding,2024
○YouOnlyCacheOnce:Decoder-DecoderArchitecturesfor
LanguageModels,2024
•Head
○GQA:TrainingGeneralizedMulti-QueryTransformerModels
fromMulti-HeadCheckpoints,2023
Long-Context推理优化
•Head
○RetrievalHeadMechanisticallyExplainsLong-Context
Factuality,2024
○DeepSeek-V2:AStrong,Economical,andEfficientMixture-of-
ExpertsLangua
免费下载链接
飞猫云链接地址:https://jmj.cc/s/23vz7n
压缩包解压密码:res.99hah.com_JAJtiLh3Gn
下载方法:如果您不是飞猫云会员,请在下载页面滚动到最下方,点击“非会员下载”,网页跳转后再次滚动到最下方,点击“非会员下载”。
解压软件:Bandizip
- 打开飞猫云链接地址的页面,拖动到最下方,找到“非会员下载”的按钮并点击
- 此时,如果没登录,可能会提醒您注册帐号,随便注册一个帐号并登录
- 再在新打开的下载页面,再次拖动到最下方,找到“网页端 非会员下载”的按钮并点击。
版权声明:本文为转载文章,版权归原作者所有,转载请保留出处!