BERT

基于变换器的双向编码器表示技术（英语：Bidirectional Encoder Representations from Transformers，BERT）是用于自然语言处理（NLP）的预训练技术，由Google提出。^[1]^[2]2018年，雅各布·德夫林和同事创建并发布了BERT。Google正在利用BERT来更好地理解用户搜索语句的语义。^[3] 2020年的一项文献调查得出结论：“在一年多一点的时间里，BERT已经成为NLP实验中无处不在的基线”，算上分析和改进模型的研究出版物超过150篇。^[4]

最初的英语BERT发布时提供两种类型的预训练模型^[1]：（1）BERT_BASE模型，一个12层，768维，12个自注意头（self attention head），110M参数的神经网络结构；（2）BERT_LARGE模型，一个24层，1024维，16个自注意头，340M参数的神经网络结构。两者的训练语料都是BooksCorpus^[5]以及英语维基百科语料，单词量分别是8亿以及25亿。^[6]