论文信息 - MIST : Multi-modal Iterative Spatial-Temporal Transformer for Long-form Video Question Answering - 字舞流文

MIST : Multi-modal Iterative Spatial-Temporal Transformer for Long-form Video Question Answering

Mike Zheng Shou | Yezhou Yang | Lei Ji | Luowei Zhou | Linchao Zhu | Difei Gao | Mike Zheng Shou