标签:

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

本文提出了一种语言表征模型BERT(Bidirectional Encoder Representations from Transformers)。它使用了一个深度、双向模型,用无标签的文本数据作为输入,来预训练一个文本的表征。BERT模型在模型的每一层中都使用了文本的上下文信息(双向)。在预训练的BERT模型后面可以接一个全连接层进行特定任务的微调训练。实验结果显示,在11个NLP任务上,BERT都可以达到现有的最高水平(18年)。

本文提出了一种语言表征模型BERT(Bidirectional Encoder Representations from Transformers)。它使用了一个深度、双向模型,用无标签的文本数据作为输入,来预训练一个文本的表征。BERT模型在模型的每一层中都使用了文本的上下文信息(双向)。在预训练的BERT模型后面可以接一个全连接层进行特定任务的微调训练。实验结果显示,在11个NLP任务上,BERT都可以达到现有的最高水平(18年)。