论文信息 - Mixhead: Breaking the low-rank bottleneck in multi-head attention language models - 字舞流文

Mixhead: Breaking the low-rank bottleneck in multi-head attention language models

Qinli Yang | Junming Shao | Chongming Gao | Zhong Zhang | Rui Miao | Nian Shao