论文信息 - VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval - 字舞流文

VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval

Axel Finke | G. Cosma | Yansong Gong