热门问题
时间线
聊天
视角

Mamba (深度學習架構)

来自维基百科,自由的百科全书

Mamba (深度学习架构)
Remove ads

Mamba是一種用於序列建模任務的深度學習架構。它是由卡內基梅隆大學普林斯頓大學的研究人員開發的,用於解決Transformer架構的一些局限性,尤其是在處理長序列方面。它基於結構化狀態空間序列(S4)模型。 [1] [2] [3]

架構

為了能夠處理長數據序列,Mamba 採用了結構化狀態空間序列模型 (S4)。 [1] S4 可以通過結合連續時間、循環卷積模型有效且高效地對長序列進行建模。這使得它能夠處理不規則採樣的數據和長上下文,並在訓練和推理期間保持計算效率。 [4]

Mamba對S4模型在時序運算處理方面實現了突破性改進,其創新性的動態參數選擇機制能夠根據輸入特徵自適應調整結構化狀態空間模型(SSM)的參數配置。 [5] [1]這種機制使模型具備序列信息的選擇性注意力能力,通過動態篩選關鍵特徵實現對冗餘數據的智能過濾。相較於傳統時不變系統框架,Mamba採用的時變架構不僅提升了計算效率,更優化了複雜序列建模的能量消耗比,實現了模型性能的階躍式提升。 [1] [6]

Mamba 採用一種硬件感知算法。該實現利用GPU 去進行內核融合、並行掃描和重新計算來避免在內存密集型層中實現擴展狀態[1],從而提高性能和內存使用率。與Transformer相比,該方法在處理長序列時效率明顯更高。 [1] [6]

此外,Mamba 通過將 SSM 設計與MLP塊相集成來簡化其架構,從而形成相同質量但精簡的結構,進一步增強了該模型進行跨文本、音頻和基因組等數據類型進行通用序列建模的能力,同時保持了訓練和推理的高效率。 [1]

Remove ads

關鍵組件

  • 選擇性狀態空間 (SSM): SSM 是Mamba 的核心,它是根據當前輸入選擇性處理信息的循環模型。這使得能夠專注於相關信息,丟棄不相關的數據。 [1]
  • 簡化架構: Mamba 用統一的 SSM 塊取代了 Transformers 的複雜注意力和 MLP 塊。目的是降低計算複雜度並提高推理速度。 [1]
  • 硬件感知並行: Mamba 採用循環模式,並採用專為提高硬件效率而設計的並行算法,從而進一步提升其性能。 [1]
更多信息 特徵, Transfromer ...

變種模型

無token的語言模型:MambaByte

由於要對每個字節大小的token進行操作,Transformer 的擴展性較差,因為每個token都必須「關注」其他每個token,從而導致O(n 2 )的計算複雜度,因此,Transformer 選擇使用子詞分詞器來減少文本中的token數量,然而,這會導致詞彙表和詞嵌入非常大。

這項研究探討了一種新穎的語言建模方法,MambaByte,它不同於標準的基於token的方法。與依賴於將文本分解為離散單元的傳統模型不同,MambaByte 直接處理原始字節序列。這消除了token化的需要,可能帶來以下幾個優點: [7]

  • 語言獨立性:tokenization通常依賴於特定於語言的規則和詞彙,從而限制了其在不同語言中的適用性。 MambaByte 的字節級表示使其能夠處理不同的語言,而無需特定於語言的適應。
  • 消除子詞分詞器帶來的偏見:常見子詞被過度代表,而罕見詞或新詞被低估或被分成意義較小的單元。這會影響模型的理解和生成能力,特別是對於形態豐富的語言或在訓練數據中沒有很好表現的token。
  • 預處理的簡化:通過消除對複雜token和詞彙管理的需求,簡化了預處理流程,減少了預處理步驟和潛在錯誤。

子詞分詞器在 LLM 中引入了許多奇怪的問題,例如 LLM 無法拼寫單詞、反轉某些單詞、處理罕見token,而這些在字節級token化中是不存在的。 [8]

Remove ads

MOE與Mamba模型的結合 (Mamba Mixture of Experts,MOE)

MoE Mamba 代表了混合專家 (MoE) 技術與 Mamba 架構的開創性結合,增強了狀態空間模型 (SSM) 在語言建模中的效率和可擴展性。該模型充分利用了 MoE 和 SSM 的優勢,顯著提高了訓練效率——所需的訓練時間比其前身 Mamba 減少了 2.2 倍,同時保持了與其相匹配的性能。 MoE Mamba 通過將選擇性狀態空間建模與基於混合專家技術的處理相結合,展示了更高的效率和性能,為未來擴展 SSM 來進行數百億級別參數的模型研究提供了有潛力的途徑。該模型的設計涉及互相交替的 Mamba 層和 MoE 層,使其能夠有效地整合所有的序列上下文,並為每個token應用最相關的專家模型。 [9] [10]

Mamba在視覺上的使用(Vision Mamba,Vim)

Vision Mamba (Vim) 將SSM 用於視覺數據處理。它採用雙向 Mamba 塊進行視覺序列編碼並於此減少了視覺任務中通常與self-attention機制相關的計算需求。經過ImageNet分類數據集、COCO 對象檢測和 ADE20k 語義分割的測試,Vim 展示了更好的性能,並且能夠以較低的計算資源處理高分辨率圖像。這使得 Vim 成為未來視覺表徵學習進步的可擴展模型。 [11]

Jamba

Jamba 是一種將Transformer 和 Mamba SSM 架構相結合的新型架構,由AI21 Labs開發,擁有 520 億個參數,是迄今為止創建的參數最多的 Mamba 變種。它有一個包含 256k token的上下文窗口。 [12]

影響和未來方向

Mamba代表了大型語言模型架構的重大潛在轉變,即社會可能需要更快、更高效、可擴展的模型[來源請求]

應用包括語言翻譯、內容生成、長篇文本分析、音頻和語音處理[來源請求]

參見

注釋

參考

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads