首页   

RocketKV 创新性地提出了一种两阶段 KV 缓存压缩方法,-20250222055734

爱可可-爱生活  · AI  · 14 小时前

正文

2025-02-22 05:57

RocketKV 创新性地提出了一种两阶段 KV 缓存压缩方法,通过 SnapKV++ 进行粗粒度淘汰和混合注意力进行细粒度选择,在无需重新训练的情况下,显著加速了长上下文 LLM 的解码推理速度并降低了内存占用,同时保持了与全量 KV 缓存注意力相当的精度,有效突破了长上下文 LLM 推理的效率瓶颈。
[CL]《RocketKV: Accelerating Long-Context LLM Inference via Two-Stage KV Cache Compression》P Behnam, Y Fu, R Zhao, P Tsai... [NVIDIA,] (2025) 网页链接 #机器学习##人工智能##论文##AI创造营#
© 2024 精读
删除内容请联系邮箱 2879853325@qq.com