ACL-2019 BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

论文地址:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT:Transformer的Encoder的堆叠

BERT_BASE 用的层数维数和GPT一样,为了做对比。但用的数据集更大,大概4倍

主要有两个任务

  1. Masked LM:做完形填空,将句子中的一些词按概率替换为 [MASK]或者其他单词,然后进行预测
  2. Next Sentence Prediction: 比如一对QA语句(或其他上下文的语句),将后面的A按一定概率换成随机的句子,然后预测