论文信息 - Learning Audio-Video Modalities from Image Captions - 字舞流文

Learning Audio-Video Modalities from Image Captions

C. Schmid | Chen Sun | Santiago Manén | Arsha Nagrani | P. H. Seo | Bryan Seybold | Anja Hauth