论文是EMNLP 2021的最佳论文,论文指出了当前视觉-语言数据集的一些问题,发布了一个新的数据集。
简介
当前广泛被使用的视觉-语言数据集都是从ImageNet中提取概念(concept)和图片,很多预训练编码器也都是基于ImageNet的。而ImageNet中的数据基本上都和英语语言相关,数据内容偏向于北美和西欧,因此ImageNet的数据分布并不符合数据的真实分布。本文设计了一个新的构建ImageNet风格数据集的方法,并基于此方法构建了一个可以代表更多语言、文化的数据集。
现有数据集问题
ImageNet数据集自创建之后,被广泛地应用到计算机视觉领域。数据集中所用的概念是从英语词汇语义数据集WordNet中选择出来的,这些概念呈现一个层次结构(越底层概念越抽象,比如动物;越高层概念越具体,比如中华田园犬),可参考下图 (图片来源:https://observablehq.com/@mbostock/imagenet-hierarchy)。
后来的其它一些数据集,比如:NLVR2/MS-COCO/Visual Genome等数据集的都是根据ImageNet数据集中概念的层次结构来构建的,很多预训练编码器也都是基于这些数据集的。由于所用的概念是基于北美和西欧地区的,ImageNet很难说适合非英语语言文化地区。并且,一些研究也表明,ImageNet数据的来源和内容都是带有偏向的。
地域性限制
论文对ImageNet 1k/NLVR2/MaRVL中使用的概念进行了一些统计。统计方法为:将数据集中使用到的概念使用维基百科的API进行搜索,并且统计它们在不同语言中的的含义。结果发现大多数的词语仅在30种语言或更少的语言中出现过。下图显示了出现在不同语言中次数对词语数量的概率分布(横坐标表示词语在多少种语言中出现过,纵坐标为概率密度)。
可以看到MaRVL数据集相比于之前的两个数据集对于数据集中所选词语进行了一个平衡,可以让所选词语可以适应更多的文化。
论文还对词语对应语言的使用地区进行了统计,发现大多数语言都会被欧亚大陆地区所使用。下图显示了这一分布情况。
从图中可以看出,MaRVL数据集所包含的词语在大多数地区的使用率相对于ImageNet和NLVR2数据集都有所提高(除了在Papunesia地区的覆盖率略低于NLVR2)。
英语语言限制
ImageNet不但局限于英语(基于WordNet),而且其中包含了WordNet中一些太过具体的概念,比如其中包含了*Blenheim spaniel (布伦海姆狗),而不是一些基本的概念比如Dog (狗)*。为了更具体的说明,作者统计了ImageNet中所用概念(词语)在WordNet层次结构中的深度。一般人类喜欢用的一些词语的深度大概为$8.92\pm3.94$,而ImageNet中使用的概念更加细粒度,深度大概分布在$10.61\pm6.13$。
这导致了ImageNet不但在概念的选择上偏向于英语,而且在词语的选用上还不太符合人类的使用习惯。这种不匹配性在非英语文化中会被加重。
文化差异举例:使用英语的人通常称KOTO(一种日本乐器,中文叫十三弦古筝)为instrument(乐器、工具),而日本本土人会使用更加精确的表达筝。
数据集Bias来源总结
- 概念的选择(如前文描述)
- 图片获取:很多数据集的图片直接从搜索引擎而来,而搜索引擎给出的图片的分布不能反映现实世界的数据分布(显然搜索引擎会对使用者个人的偏好、地域等进行结果过滤、排序等)
- 图片的过滤:很多数据集的过滤都是通过众包完成的,这些工作人员的文化背景无从考证,因此无法保证这些人的代表性;此外,结果不一致的数据会被从原数据集中去除,这些不一致性很可能就是由于文化差异造成的,这会导致最终的数据集中缺乏多样性
MaRVL数据集
为了创建一个多文化、多语言的数据集,本文改进了数据的生成过程,数据集中的概念和图片的选择都是让语言所对应的本地人来做。数据集被命名为MaRVL(Multicultural Reasoning over Vision and Language)。MaRVL数据集中搜集了共5种语言文化的数据,分别为:印度尼西亚语、斯瓦希里语、泰米尔语、土耳其语和中文普通话。
为了得到一个好的数据集,文中将数据集的生成分成五个阶段:
- 语言选择
- 通用概念选择
- 特定语言的概念选择
- 图片选择
- 图片说明文字
语言选择数据集选择的五种语言,即*印度尼西亚语(ID)、斯瓦希里语(SW)、泰米尔语(TA)、土耳其语(TR)和中文普通话(ZH)*,充分考虑了它们的类型、谱系和地理位置,它们涵盖了不同的书写系统,而且包括了一些小语种(泰米尔语、斯瓦希里语)。
通用概念选择关于全球通用的一些概念,当前已经有很多的研究。本文选词来源为Intercontinental Dictionary Series,作者从它的22章中选择了18个语义域,这些域涵盖了具体的事物以及事件。具体语义域与对应章节可见下表。
章节 | 索引 | 语义域 |
---|---|---|
Animal | 3 | Bird, mammal |
Food and Beverages | 5 | Food, Beverages |
Clothing and grooming | 6 | Clothing |
The house | 7 | Interior, exterior |
Agriculture and vegetation | 8 | Flower, fruit, vegetable, agriculture |
Basic actions and technology | 9 | Utensil/tool |
Motion | 10 | Sport |
Time | 14 | Celebrations |
Cognition | 17 | Education |
Speech and language | 18 | Music (instruments), visual arts |
Religion and belief | 19 | Religion |
特定语言概念选择对于每种语言,作者雇佣了5个本地人。雇员负责为每个语义域在维基百科上寻找与它们文化强相关的5~10个特定概念的连接。这些概念的选择主要有两个要求:1) 在所选语言中必须常见或具有代表性;2) 最好是物理实体或具象的。这些概念得到之后,会在每个语义域中进行一个出现频率的排序,被选择最多的5个概念会被保留。在最终结果中,有72.4%的概念至少得到了3票(也就是至少有三个人选择了这个概念)。这从侧面反映了所得到的概念很具有语言代表性。
图片选择此阶段也是通过雇佣本地人来完成的。图片的选择除了符合之前数据集(NLVR2)的图片选择要求之外,这些图片必须可以真实反应本土人的日常生活。最终,不同语言地域的人对于同一概念的选择是很不一样的。下图给出了一个篮球的示例。
图片说明文字图片的注释生成流程为:
- 对于一个给定的概念,随机选择8张图片,并且随机将其组成4对图片
- 注释人员被要求输出一段说明文字,满足说明文字对于其中两张图片为真,另外两张图片为假
说明文字必须围绕图片对应的概念来写。说明文字生成之后,验证人员会对给图片-文字对进行真假判断,并与注释人员给出的结果进行比较。与原答案不符的数据将被标记,最终交给一个本地人进行答案的重新评估。
在最终的数据集中,每条数据包含两张图片、一段说明文字以及一个True/False标签。下图给出了数据注释过程(左)以及最终数据(右)的一个示例。
新数据集分析
为了验证数据集标签的正确性,作者又让两个数据验证人对最终数据集进行验证(判断真假),并对数据集标签的正确性进行假设检验。对于不同语言的数据,最终的准确率及假设检验的结果(Fleiss卡帕系数)如下图所示:
语言 | ID | SW | ZH | TR | TA | 平均 |
---|---|---|---|---|---|---|
准确率 | 0.963 | 0.930 | 0.955 | 0.970 | 0.980 | 0.960 |
Fleiss kappa | 0.913 | 0.887 | 0.933 | 0.954 | 0.966 | 0.931 |
从假设检验的结果来看,数据集注释几乎是完美的。
关于数据集的一些详细数据,可以参考下表:
语言 | ID | SW | ZH | TR | TA | 总计 |
---|---|---|---|---|---|---|
概念数量 | 96 | 88 | 94 | 90 | 86 | 454 |
>8张图片的概念 | 95 | 78 | 94 | 79 | 83 | 429 |
不在WordNet中(%) | 18.8 | 8.0 | 27.7 | 21.1 | 30.2 | 21.1 |
总图片 | 1153 | 1110 | 1271 | 972 | 946 | 5464 |
被选用于说明的图片 | 1091 | 875 | 1107 | 917 | 924 | 4914 |
总样本数 | 1128 | 1108 | 1012 | 1180 | 1242 | 5670 |
不同说明总数 | 282 | 276 | 253 | 295 | 305 | 1411 |
图片的分布
为了更好地理解新的数据集中图片的特性,作者使用预训练的ResNet50对数据集进行了特征提取,并且使用UMAP将其可视化。下图展示了MaRVL-ZH数据集和NLVR2的分布对比。
从图中可以看出NLVR2的数据聚集性更强,而MaRVL-ZH的数据相对而言就比较发散。
文中还对比了MaRVL中不同语言的图片,发现这些不同语言之间图片分布之间也是不同的,这中不同大部分是由不同语言所选的概念集不同引起的。
现有模型性能对比
为了测试新的数据集MaRVL,文中对比了现有很多的模型。下表给出了具体的结果。
上表中,mUNITER与xUNITER为UNITER的两个变体,其中mUNITER使用mBERT进行UNITER的初始化,xUNITER使用XLM-R-base进行初始化。表中每条数据包含两个值,一个为准确率(左),另一个表示一致性(右)。这里一致性表示图片说明(caption)与对应的图片所组成的所有样本答案都正确的图片说明所占比例。实验中,预训练模型使用了NLVR2数据集进行了微调,具体的模型结构大家可以参考相应论文。
从表中可以看出:
- 不同的模型间对于同一类数据的准确率差距并不是很大
- 模型在进行zero-shot数据上的迁移准确率仅略高于随机猜测的准确率
- 模型在英文上(NLVR2)的表现远优于在其它语言上的表现
- 模型在新语言上的迁移表现(zero-shot)远差于将语言翻译成英文后的表现(translate test,此表中的翻译使用机器翻译)
MaRVL数据集更具挑战性,这种挑战性是由以下两点造成的:
- 跨语言迁移:文中将NLVR2-1k数据集中的英文数据翻译为中文后,再次测试了不同的模型,发现模型的性能(准确率)下降了很多(相比于原本英文的准确率下降了15%+)
- 概念/图片分布的不一致性:文中将MaRVL中的中文数据集人工翻译为了英文,并对比测了不同的模型,发现不同模型的准确率相比于在NLVR2数据集上的准确率仍然低10%左右,这从侧面说明了准确率降低是由数据集分布的不一致性造成的
结论
论文对现有视觉-语言数据集的不足进行了分析,提出了一个新的多文化/多语言数据的采集方法,并且基于此方法产出了一个新的数据集MaRVL,数据集中包含了5种不同语言的数据。基于此数据集,论文对比了现有模型的表现,其中zero-shot的实验结果表明,很多现有模型在新的数据集上的准确率仅仅比随机猜测的准确率(50%)高出一点。此结果在一定程度上反映了使用现有数据集训练的预训练模型在实际应用上的性能表现(并不好)。
引用
[1] Liu, Fangyu, et al. "Visually Grounded Reasoning across Languages and Cultures." arXiv preprint arXiv:2109.13238 (2021).
更多推荐