论文信息 - MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language Representation Learning - 字舞流文

MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language Representation Learning

Jing Liu | Zehuan Yuan | Zijia Zhao | Longteng Guo | Xingjian He | Shuai Shao