首页   

LServe 创新性地提出了混合稀疏注意力机制,通过统一块稀疏框-20250222055225

爱可可-爱生活  · AI  · 14 小时前

正文

2025-02-22 05:52

LServe 创新性地提出了混合稀疏注意力机制,通过统一块稀疏框架融合静态流式头和动态页面剪枝,显著加速了长序列 LLM 的预填充和解码过程,突破了长上下文服务效率瓶颈,并揭示了动态稀疏性实现恒定 KV 缓存大小的反直觉特性,为高效长序列 LLM 服务开辟了新路径。
[CL]《LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention》S Yang, J Guo, H Tang, Q Hu... [MIT] (2025) 网页链接 #机器学习##人工智能##论文##AI创造营#
© 2024 精读
删除内容请联系邮箱 2879853325@qq.com