论文信息 - Hierarchical Transformers Are More Efficient Language Models - 字舞流文

Hierarchical Transformers Are More Efficient Language Models

Christian Szegedy | Lukasz Kaiser | Yuhuai Wu | Szymon Tworkowski | H. Michalewski | Michał Tyrolski | Piotr Nawrot