论文信息 - Gated Linear Attention Transformers with Hardware-Efficient Training - 字舞流文

Gated Linear Attention Transformers with Hardware-Efficient Training

R. Panda | Songlin Yang | Bailin Wang | Yikang Shen | Yoon Kim | Rameswar Panda