论文信息 - Efficient Memory Management for Large Language Model Serving with PagedAttention - 字舞流文

Efficient Memory Management for Large Language Model Serving with PagedAttention

Joseph E. Gonzalez | Lianmin Zheng | Zhuohan Li | I. Stoica | Siyuan Zhuang | Haotong Zhang | Ying Sheng | Woosuk Kwon | Cody Hao Yu | Ion Stoica