Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
这篇论文提出了一个新的模型:Sentence-BERT (SBERT),它在预训练的BERT基础之上,使用*孪生网络(siamese network)*和*三元组网络(triplet network)*,对模型进行了微调。这样模型就可以生成句子的嵌入表示(sentence embedding),这些句子的嵌入表示可以直接用来计算句子间的余弦相似度。这样在前面提到的寻找最相似句子的任务中,就无需对每个句子对进行推理,大大减少了计算时间(65小时 -> 5秒),并且不会降低准确率。
这篇论文提出了一个新的模型:Sentence-BERT (SBERT),它在预训练的BERT基础之上,使用*孪生网络(siamese network)*和*三元组网络(triplet network)*,对模型进行了微调。这样模型就可以生成句子的嵌入表示(sentence embedding),这些句子的嵌入表示可以直接用来计算句子间的余弦相似度。这样在前面提到的寻找最相似句子的任务中,就无需对每个句子对进行推理,大大减少了计算时间(65小时 -> 5秒),并且不会降低准确率。
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
本文提出了一种语言表征模型BERT(Bidirectional Encoder Representations from Transformers)。它使用了一个深度、双向模型,用无标签的文本数据作为输入,来预训练一个文本的表征。BERT模型在模型的每一层中都使用了文本的上下文信息(双向)。在预训练的BERT模型后面可以接一个全连接层进行特定任务的微调训练。实验结果显示,在11个NLP任务上,BERT都可以达到现有的最高水平(18年)。
本文提出了一种语言表征模型BERT(Bidirectional Encoder Representations from Transformers)。它使用了一个深度、双向模型,用无标签的文本数据作为输入,来预训练一个文本的表征。BERT模型在模型的每一层中都使用了文本的上下文信息(双向)。在预训练的BERT模型后面可以接一个全连接层进行特定任务的微调训练。实验结果显示,在11个NLP任务上,BERT都可以达到现有的最高水平(18年)。