注意力機制
維基百科,自由的 encyclopedia
注意力機制(英語:attention)是類神經網路中一種模仿認知注意力的技術。這種機制可以增強神經網路輸入資料中某些部分的權重,同時減弱其他部分的權重,以此將網路的關注點聚焦於資料中最重要的一小部分。資料中哪些部分比其他部分更重要取決於上下文。可以透過梯度下降法對注意力機制進行訓練。
類似於注意力機制的架構最早於1990年代提出,當時提出的名稱包括乘法模組(multiplicative module)、sigma pi單元、超網路(hypernetwork)等。[1]注意力機制的靈活性來自於它的「軟權重」特性,即這種權重是可以在執行時改變的,而非像通常的權重一樣必須在執行時保持固定。注意力機制的用途包括神經圖靈機中的記憶功能、可微分神經電腦(英語:Differentiable neural computer)中的推理任務[2]、Transformer模型中的語言處理、Perceiver(感知器)模型中的多模態資料處理(聲音、圖像、影片和文字)。[3][4][5][6]