论文信息 - Av-Data2Vec: Self-Supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations - 字舞流文

Av-Data2Vec: Self-Supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations

Michael Auli | Alexei Baevski | Wei-Ning Hsu | Jiachen Lian