论文信息 - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling - 字舞流文

VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling

Tsu-Jui Fu | Zhe Gan | Kevin Lin | W. Wang | Lijuan Wang | Zicheng Liu | Linjie Li