论文地址:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT:Transformer的Encoder的堆叠
BERT_BASE 用的层数维数和GPT一样,为了做对比。但用的数据集更大,大概4倍
主要有两个任务
- Masked LM:做完形填空,将句子中的一些词按概率替换为
[MASK]
或者其他单词,然后进行预测 - Next Sentence Prediction: 比如一对QA语句(或其他上下文的语句),将后面的A按一定概率换成随机的句子,然后预测