长文本大模型推理实践:以 KVCache 为中心的分离式推理架构

2024-11-24 14:53:43  阅读 10 次 评论 0 条
请拖动到本页下方,找到飞猫云下载链接,根据本页下方提示的方法,即可免费下载。

长文本大模型推理实践——

以KVCache为中心的分离

式推理架构

演讲人:唐飞虎

月之暗面研发工程师开发者关系负责人

目录

01长文本推理的瓶颈02长文本推理的优化

03Mooncake的实践04上下文缓存的应用

长文本推理的瓶颈

RAG

•Pros.

○无需额外训练

○速度快

○成本低

○工程方案成熟

○可设计多级检索方案

•Cros.

○Embedding召回效果直接影响模型回答效果

○无法处理复杂逻辑

○对多模态支持不足

Long-Context

•Pros.

○无需额外训练

○上下文兼顾更全面

○可处理复杂逻辑和依赖

•Cros.

○贵且慢

○长度有限

Long-Context

•Pros.

○无需额外训练

○上下文兼顾更全面

○可处理复杂逻辑和依赖

•Cros.

○贵且慢

○长度有限

长文本:有点贵

长文本:有点慢

Long-Context性能瓶颈

•并发性能随着上下文长度的增加而反比下降。

•预填充延迟随上下文长度的增长而呈平方级别

的增长。

•解码延迟和上下文切换开销随上下文长度的增

加而线性增加。

Long-Context性能瓶颈

•并发性能随着上下文长度的增加而反比下降。

•预填充延迟随上下文长度的增长而呈平方级别

的增长。

•解码延迟和上下文切换开销随上下文长度的增

加而线性增加。

长文本推理的优化

Long-Context推理优化

•硬件

○A100MemoryHierarchy

•机器学习工程

○FlashAttention

○vLLM

•模型架构

○MoE

○SpeculativeDecoding

Long-Context推理优化

•Layer

○ConfidentAdaptiveLanguageModeling,2022

○CoLT5:FasterLong-RangeTransformerswithConditional

Computation,2023

○LayerSkip:EnablingEarlyExitInferenceandSelf-Speculative

Decoding,2024

○YouOnlyCacheOnce:Decoder-DecoderArchitecturesfor

LanguageModels,2024

•Head

○GQA:TrainingGeneralizedMulti-QueryTransformerModels

fromMulti-HeadCheckpoints,2023

Long-Context推理优化

•Head

○RetrievalHeadMechanisticallyExplainsLong-Context

Factuality,2024

○DeepSeek-V2:AStrong,Economical,andEfficientMixture-of-

ExpertsLangua



免费下载链接
飞猫云链接地址:https://jmj.cc/s/23vz7n


压缩包解压密码:res.99hah.com_JAJtiLh3Gn

下载方法:如果您不是飞猫云会员,请在下载页面滚动到最下方,点击“非会员下载”,网页跳转后再次滚动到最下方,点击“非会员下载”。

解压软件:Bandizip

飞猫云免费下载方法:
  1. 打开飞猫云链接地址的页面,拖动到最下方,找到“非会员下载”的按钮并点击
  2. 此时,如果没登录,可能会提醒您注册帐号,随便注册一个帐号并登录
  3. 再在新打开的下载页面,再次拖动到最下方,找到“网页端 非会员下载”的按钮并点击。
本文地址:https://res.99hah.com/post/10183.html
版权声明:本文为转载文章,版权归原作者所有,转载请保留出处!

评论已关闭!