ACL-2019 BERT：Pre-training of Deep Bidirectional Transformers for Language Understanding

2021-11-23 PaperNote CL 0 0 Comments Word Count: 129(words) Read Count: 1(minutes)

论文地址：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT：Transformer的Encoder的堆叠

BERT_BASE 用的层数维数和GPT一样，为了做对比。但用的数据集更大，大概4倍

主要有两个任务

Masked LM：做完形填空，将句子中的一些词按概率替换为 [MASK]或者其他单词，然后进行预测
Next Sentence Prediction: 比如一对QA语句（或其他上下文的语句），将后面的A按一定概率换成随机的句子，然后预测

本文链接： https://tyang816.github.io/2021/11/23/BERT：Pre-training of Deep Bidirectional Transformers for Language Understanding/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

Yang TanMaster Student @ECUST