标签:

视觉语言模型

据图片来生成文本的任务(比如图片描述/视觉问答等)已经被研究了好些年。传统解决这类问题的系统通常会将一个对象检测网络用作一个视觉特征编码器,而后再利用一个解码器将特征向量解码为文字。由于当前此类研究数量太大,在这里我仅关注这其中的一类解决视觉语言任务的方法。

据图片来生成文本的任务(比如图片描述/视觉问答等)已经被研究了好些年。传统解决这类问题的系统通常会将一个对象检测网络用作一个视觉特征编码器,而后再利用一个解码器将特征向量解码为文字。由于当前此类研究数量太大,在这里我仅关注这其中的一类解决视觉语言任务的方法。