Transformer模型
維基百科,自由的 encyclopedia
Transformer模型(直譯為「變換器」)是一種採用注意力機制的深度學習模型,這一機制可以按輸入資料各部分重要性的不同而分配不同的權重。該模型主要用於自然語言處理(NLP)與電腦視覺(CV)領域。[1]
與迴圈神經網路(RNN)一樣,Transformer模型旨在處理自然語言等順序輸入資料,可應用於翻譯、文字摘要等任務。而與RNN不同的是,Transformer模型能夠一次性處理所有輸入資料。注意力機制可以為輸入序列中的任意位置提供上下文。如果輸入資料是自然語言,則Transformer不必像RNN一樣一次只處理一個單詞,這種架構允許更多的平行計算,並以此減少訓練時間。[2]
Transformer模型於2017年由谷歌大腦的一個團隊推出[2],現已逐步取代長短期記憶(LSTM)等RNN模型成為了NLP問題的首選模型。[3]並列化優勢允許其在更大的資料集上進行訓練。這也促成了BERT、GPT等預訓練模型的發展。這些系統使用了維基百科、Common Crawl(英語:Common Crawl)等大型語料庫進行訓練,並可以針對特定任務進行微調。[4][5]