论文信息 - MAMO: Fine-Grained Vision-Language Representations Learning with Masked Multimodal Modeling - 字舞流文

MAMO: Fine-Grained Vision-Language Representations Learning with Masked Multimodal Modeling

Jing Liu | Zehuan Yuan | Zijia Zhao | Longteng Guo | Xingjian He | Shuai Shao