Mamba (深度学习架构)

Mamba是一種用於序列建模任務的深度學習架構。它是由卡內基梅隆大學和普林斯頓大學的研究人員開發的，用於解決Transformer架構的一些局限性，尤其是在處理長序列方面。它基於結構化狀態空間序列（S4）模型。 ^[1]^[2]^[3]

架構

為了能夠處理長數據序列，Mamba採用了結構化狀態空間序列模型（S4）。^[1]S4可以通過結合連續時間、循環和卷積模型有效且高效地對長序列進行建模。這使得它能夠處理不規則採樣的數據和長上下文，並在訓練和推理期間保持計算效率。^[4]

Mamba對S4模型在時序運算處理方面實現了突破性改進，其創新性的動態參數選擇機制能夠根據輸入特徵自適應調整結構化狀態空間模型（SSM）的參數配置。^[5]^[1]這種機制使模型具備序列信息的選擇性注意力能力，通過動態篩選關鍵特徵實現對冗餘數據的智能過濾。相較於傳統時不變系統框架，Mamba採用的時變架構不僅提升了計算效率，更優化了複雜序列建模的能量消耗比，實現了模型性能的階躍式提升。^[1]^[6]

Mamba採用一種硬件感知算法。該實現利用GPU去進行內核融合、並行掃描和重新計算來避免在內存密集型層中實現擴展狀態^[1]，從而提高性能和內存使用率。與Transformer相比，該方法在處理長序列時效率明顯更高。^[1]^[6]

此外，Mamba通過將SSM設計與MLP塊相集成來簡化其架構，從而形成相同質量但精簡的結構，進一步增強了該模型進行跨文本、音頻和基因組等數據類型進行通用序列建模的能力，同時保持了訓練和推理的高效率。^[1]

Remove ads

關鍵組件

選擇性狀態空間（SSM）：SSM是Mamba的核心，它是根據當前輸入選擇性處理信息的循環模型。這使得能夠專注於相關信息，丟棄不相關的數據。^[1]
簡化架構：Mamba用統一的SSM塊取代了Transformers的複雜注意力和MLP塊。目的是降低計算複雜度並提高推理速度。^[1]
硬件感知並行：Mamba採用循環模式，並採用專為提高硬件效率而設計的並行算法，從而進一步提升其性能。^[1]

更多信息 特徵, Transfromer ...

與 Transformer 的比較
特徵	Transfromer	Mamba
架構	基於注意力	基於SSM
複雜	高	低
推理時間複雜度	`O(n)`	`O(1)`
訓練時間複雜度	`O(n ² )`	`O(n)`

變種模型

無token的語言模型：MambaByte

由於要對每個字節大小的token進行操作，Transformer的擴展性較差，因為每個token都必須「關注」其他每個token，從而導致O(n ² )的計算複雜度，因此，Transformer 選擇使用子詞分詞器來減少文本中的token數量，然而，這會導致詞彙表和詞嵌入非常大。

這項研究探討了一種新穎的語言建模方法：MambaByte，它不同於標準的基於token的方法。與依賴於將文本分解為離散單元的傳統模型不同，MambaByte 直接處理原始字節序列。這消除了token化的需要，可能帶來以下幾個優點：^[7]

語言獨立性：tokenization通常依賴於特定於語言的規則和詞彙，從而限制了其在不同語言中的適用性。 MambaByte 的字節級表示使其能夠處理不同的語言，而無需特定於語言的適應。
消除子詞分詞器帶來的偏見：常見子詞被過度代表，而罕見詞或新詞被低估或被分成意義較小的單元。這會影響模型的理解和生成能力，特別是對於形態豐富的語言或在訓練數據中沒有很好表現的token。
預處理的簡化：通過消除對複雜token和詞彙管理的需求，簡化了預處理流程，減少了預處理步驟和潛在錯誤。

子詞分詞器在LLM中引入了許多奇怪的問題，例如LLM無法拼寫單詞、反轉某些單詞、處理罕見token，而這些在字節級token化中是不存在的。^[8]

Remove ads

MOE與Mamba模型的結合（Mamba Mixture of Experts，MOE）

MoE Mamba代表了混合專家（MoE）技術與Mamba架構的開創性結合，增強了狀態空間模型（SSM）在語言建模中的效率和可擴展性。該模型充分利用了MoE和SSM的優勢，顯著提高了訓練效率——所需的訓練時間比其前身Mamba減少了2.2倍，同時保持了與其相匹配的性能。MoE Mamba通過將選擇性狀態空間建模與基於混合專家技術的處理相結合，展示了更高的效率和性能，為未來擴展SSM來進行數百億級別參數的模型研究提供了有潛力的途徑。該模型的設計涉及互相交替的Mamba層和MoE層，使其能夠有效地整合所有的序列上下文，並為每個token應用最相關的專家模型。^[9]^[10]

Mamba在視覺上的使用（Vision Mamba，Vim）

Vision Mamba（Vim）將SSM用於視覺數據處理。它採用雙向Mamba塊進行視覺序列編碼並於此減少了視覺任務中通常與self-attention機制相關的計算需求。經過ImageNet分類數據集、COCO對象檢測和ADE20k語義分割的測試，Vim展示了更好的性能，並且能夠以較低的計算資源處理高分辨率圖像。這使得Vim成為未來視覺表徵學習進步的可擴展模型。^[11]

Jamba

Jamba是一種將Transformer和Mamba SSM架構相結合的新型架構，由AI21 Labs開發，擁有520億個參數，是迄今為止創建的參數最多的Mamba變種。它有一個包含256k token的上下文窗口。 ^[12]

影響和未來方向

Mamba模型顯著影響了深度學習領域，通過其選擇性狀態空間模型（Selective State Space Model）提高了長序列處理的效率，在自然語言處理中用於長上下文語言建模和文本摘要，提升了推理速度 ^[12]^[13]。在計算機視覺中，它應用於醫學圖像分割和疾病診斷，顯著減少了GPU內存使用^[14]^[15]。部分學者認為,Mamba是Transformer架構挑戰者，開創了大模型的一個新流派。但令人意外的是，它被ICLR頂會拒稿。^[16]不過僅僅6個月後,原作者提出了Mamba2架構^[17]。

未來方向包括探索硬件感知計算（如Parallel Associative Scan）優化資源利用^[18]^[19]。此外，增強模型的可信賴性（如安全性與公平性）是新興研究重點^[20]^[21]。

參見

注釋

參考

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads