注意力機制

注意力機制（英語：attention）是類神經網路中一種模仿認知注意力的技術。這種機制可以增強神經網路輸入資料中某些部分的權重，同時減弱其他部分的權重，以此將網路的關注點聚焦於資料中最重要的一小部分。資料中哪些部分比其他部分更重要取決於上下文。可以透過梯度下降法對注意力機制進行訓練。

類似於注意力機制的架構最早於1990年代提出，當時提出的名稱包括乘法模組（multiplicative module）、sigma pi單元、超網路（hypernetwork）等。^[1]注意力機制的靈活性來自於它的「軟權重」特性，即這種權重是可以在執行時改變的，而非像通常的權重一樣必須在執行時保持固定。注意力機制的用途包括神經圖靈機中的記憶功能、可微分神經電腦（英語：Differentiable neural computer）中的推理任務^[2]、Transformer模型中的語言處理、Perceiver（感知器）模型中的多模態資料處理（聲音、圖像、影片和文字）。^[3]^[4]^[5]^[6]