标签:

Zero-Shot Text-to-Image Generation

在文本生成图片的任务中,人们一直致力于在确定的小数据集下寻找更好的网络结构,然而一些假设通常会引入复杂的模型结构或者繁琐的损失函数。本文提出一种简单的自回归策略,利用transformer将文本和图片同等建模,即使在zero shot情况下也可以达到SOTA效果。GPT3证明了在文本上使用大规模参数和大规模数据对模型带来的提高,本文使用120亿参数的模型在2.5亿数据上进行了训练,证明了大规模模型在文本到图像生成任务上也有很好的效果。

在文本生成图片的任务中,人们一直致力于在确定的小数据集下寻找更好的网络结构,然而一些假设通常会引入复杂的模型结构或者繁琐的损失函数。本文提出一种简单的自回归策略,利用transformer将文本和图片同等建模,即使在zero shot情况下也可以达到SOTA效果。GPT3证明了在文本上使用大规模参数和大规模数据对模型带来的提高,本文使用120亿参数的模型在2.5亿数据上进行了训练,证明了大规模模型在文本到图像生成任务上也有很好的效果。

Deep neural networks are easily fooled: High confidence predictions for unrecognizable images

随着DNN(深度神经网络)的发展,DNN在图像分类任务上的表现足以达到人类的水平。那么DNN对于一张图片的理解和人类是一样的吗?最近的一项研究表明,DNN和人类在对于图片的理解方面有所不同,研究人员可以通过对图片进行一些肉眼无法察觉的改变(比如改变一些像素点的值),就可以让DNN分类器将图片分类为不相关的类别。这对于一些应用来讲问题非常大,比如对于安全性要求较高的图像识别领域(自动驾驶、人脸识别等)。本文对于此类问题,进行了研究,结果表明:可以很容易生成一些对于人类无法识别的图片,但是最好的DNN分类器却可以将其以非常高的置信度将其分类为一个特定类别。

随着DNN(深度神经网络)的发展,DNN在图像分类任务上的表现足以达到人类的水平。那么DNN对于一张图片的理解和人类是一样的吗?最近的一项研究表明,DNN和人类在对于图片的理解方面有所不同,研究人员可以通过对图片进行一些肉眼无法察觉的改变(比如改变一些像素点的值),就可以让DNN分类器将图片分类为不相关的类别。这对于一些应用来讲问题非常大,比如对于安全性要求较高的图像识别领域(自动驾驶、人脸识别等)。本文对于此类问题,进行了研究,结果表明:可以很容易生成一些对于人类无法识别的图片,但是最好的DNN分类器却可以将其以非常高的置信度将其分类为一个特定类别。

Invertible Residual Networks

本文展示了如何将ResNet结构改变为可逆的结构,这种变更后的结构在分类、密度估计以及内容生成方面都适用。通常,强制网络结构可逆需要对网络进行维度划分并且需要限制网络结构。本文提出的方法仅需要在训练期间添加一个简单的规范化步骤,这在现有的机器学习框架中很容易实现。可逆的ResNets网络可以和现有的最好的图片分类器以及基于流的生成模型相媲美。这在之前,任何单个网络都是无法做到的。

本文展示了如何将ResNet结构改变为可逆的结构,这种变更后的结构在分类、密度估计以及内容生成方面都适用。通常,强制网络结构可逆需要对网络进行维度划分并且需要限制网络结构。本文提出的方法仅需要在训练期间添加一个简单的规范化步骤,这在现有的机器学习框架中很容易实现。可逆的ResNets网络可以和现有的最好的图片分类器以及基于流的生成模型相媲美。这在之前,任何单个网络都是无法做到的。