论文信息 - High-throughput Generative Inference of Large Language Models with a Single GPU - 字舞流文

High-throughput Generative Inference of Large Language Models with a Single GPU

Daniel Y. Fu | Percy Liang | Christopher Ré | Lianmin Zheng | Joseph Gonzalez | Binhang Yuan | Ce Zhang | Beidi Chen | Zhuohan Li | Max Ryabinin | I. Stoica | Zhiqiang Xie | Clark W. Barrett | Ying Sheng