Transformer模型

Transformer模型（直譯為「變換器」）是一種採用注意力機制的深度學習模型，這一機制可以按輸入資料各部分重要性的不同而分配不同的權重。該模型主要用於自然語言處理（NLP）與電腦視覺（CV）領域。^[1]

與迴圈神經網路（RNN）一樣，Transformer模型旨在處理自然語言等順序輸入資料，可應用於翻譯、文字摘要等任務。而與RNN不同的是，Transformer模型能夠一次性處理所有輸入資料。注意力機制可以為輸入序列中的任意位置提供上下文。如果輸入資料是自然語言，則Transformer不必像RNN一樣一次只處理一個單詞，這種架構允許更多的平行計算，並以此減少訓練時間。^[2]

Transformer模型於2017年由谷歌大腦的一個團隊推出^[2]，現已逐步取代長短期記憶（LSTM）等RNN模型成為了NLP問題的首選模型。^[3]並列化優勢允許其在更大的資料集上進行訓練。這也促成了BERT、GPT等預訓練模型的發展。這些系統使用了維基百科、Common Crawl（英語：Common Crawl）等大型語料庫進行訓練，並可以針對特定任務進行微調。^[4]^[5]

[1]

[2]

[3]

[4]

[5]