热门问题
时间线
聊天
视角
注意力就是你所需要的一切
2017年學術文章 来自维基百科,自由的百科全书
Remove ads
《注意力就是你所需要的一切》(英語:Attention Is All You Need)[1] 是2017年由谷歌八位科學家聯合發表的一篇里程碑式[2][3]的機器學習研究論文。該論文提出了一種基於注意力機制的新型深度學習架構——Transformer,其靈感源自2014年Bahdanau等人提出的機制[4]。這篇論文被視為現代人工智慧的奠基性文獻[5],也是人工智慧熱潮的主要推動者之一,因為Transformer架構已成為大語言模型等多種AI的核心基礎[6][7]。論文最初聚焦於改進機器翻譯的Seq2seq技術,但作者進一步預見該技術可拓展至問答系統及現今的多模態生成式AI等領域[1]。

論文標題致敬了披頭四樂隊的歌曲《All You Need Is Love》[8]。「Transformer」這一名稱由論文作者之一Jakob Uszkoreit選定,因其喜歡該詞的發音[9]。
早期設計文檔曾命名為《Transformers:面向多任務的迭代式自注意力與處理》,並包含《變形金剛》(英語:Transformers)系列六個角色的插圖,團隊亦命名為「Team Transformer」[8]。
團隊早期測試案例包括英德翻譯、生成關於「Transformer」的維基百科條目及語法分析。這些實驗使團隊確信Transformer是通用語言模型,而非僅適用於翻譯[9]。
截至2025年,該論文被引用次數超過17.3萬次[10]。
Remove ads
作者
論文作者包括:Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Aidan Gomez、Łukasz Kaiser與Illia Polosukhin。八位作者均為「平等貢獻者」,署名順序隨機排列。《連線》文章強調了團隊的多樣性[8]:
Six of the eight authors were born outside the United States; the other two are children of two green-card-carrying Germans who were temporarily in California and a first-generation American whose family had fled persecution, respectively.
八人中有六位生於美國境外;另兩位分別是持綠卡的德國夫婦暫居加州時誕下的孩子,以及逃離迫害的第一代移民後代。
論文發表後,所有作者均離開谷歌加入其他公司或創立初創企業。多人表示若留任谷歌,將難以按自身方向創新拓展Transformer技術[11]。
Remove ads
提出的方法
論文最著名的貢獻是提出了Transformer架構,該架構構成現代大語言模型的基礎。其核心優勢在於比前代模型更強的並行計算能力,可通過GPU加速訓練過程,從而縮短訓練時間並支持更大規模模型。
論文為Transformer架構引入了以下機制:
採用縮放點積注意力及自注意力機製取代循環神經網絡或長短期記憶網絡(依賴遞歸結構),顯著提升性能。論文將縮放點積注意力定義為: 其中、、分別為查詢、鍵、值矩陣,為值向量的維度。
由於該機制基於同源(輸入序列/上下文窗口)生成的Q、K、V矩陣,完全消除了對RNN的依賴,確保架構可並行化。此設計區別於2014年原始注意力機制。論文還討論了針對鍵向量維度(,初始設為64)的縮放因子優化。
在翻譯任務中,Q、K矩陣通常對應源語言嵌入,而V矩陣對應目標語言。
自注意力機制中,Q、K、V矩陣動態生成(受上下文窗口限制),使模型能分步聚焦輸入序列的不同部分。多頭注意力通過並行多組注意力頭增強此過程,每組學習Q、K、V矩陣的不同線性投影,從而同步捕獲詞間關係的多維特徵。
多頭輸出經拼接和線性變換後生成最終結果。
因Transformer非序列模型,論文採用正弦/餘弦函數將詞序信息編碼至嵌入向量: 其中、、分別表示詞位置、當前維度索引和模型維度。正弦函數用於偶數索引,餘弦函數用於奇數索引。生成的嵌入會加入對應位置的詞向量。論文解釋選擇此方法的原因: 「正弦編碼可使模型外推至訓練時未見的更長序列。」[1]
Remove ads
歷史背景
訓練
論文雖以機器翻譯為核心,亦探討了該架構在英語成分句法分析任務的表現(無論數據量大小),均取得高分且無需專門調參,表明其適用於廣泛的通用序列任務。
英德翻譯模型訓練使用2014年WMT英德數據集(含450萬句,源自TED演講和高質量新聞),英法翻譯模型訓練使用更大的2014年WMT英法數據集(3600萬句)。兩者均採用字節對編碼。
模型在8塊NVIDIA P100 GPU上訓練。基礎模型訓練10萬步(每步約0.4秒),大型模型訓練30萬步(每步約1秒)。基礎模型總耗時12小時,大型模型耗時3.5天。兩者均以較低訓練成本超越2017年英德/英法翻譯的當時最優水平[1]。
在1億參數的Transformer模型中,作者在前4000步(預熱階段)線性增加學習率,之後按當前步數的平方根倒數比例下降。在子層歸一化前、嵌入求和及位置編碼後應用Dropout(比率0.1)。採用0.1的標籤平滑技術以「提升準確率與BLEU分數」[1]。
參考文獻
外部連結
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads