热门问题
时间线
聊天
视角

路徑語言模型

来自维基百科,自由的百科全书

路徑語言模型
Remove ads

路徑語言模型(英語:Pathways Language Model,通稱:PaLM)是由Google AI開發的5400億參數密集型解碼器專用transformer架構大型語言模型(LLM)[1]。研究人員同時訓練了PaLM的精簡版本(分別為80億與620億參數),以測試模型規模的影響[2]

事实速览 開發者, 前任 ...

模型

PaLM具備廣泛的任務能力,涵蓋常識推理、算術推理、笑話解釋、程式碼生成及翻譯等領域[2][3][4][5]。當結合鏈式思考提示法時,PaLM在需要多步驟推理的數據集上表現顯著提升,例如應用題邏輯推理題型[1][2]

該模型最初於2022年4月公布,並在2023年3月前保持私有狀態。當時Google為PaLM及其他多項技術推出API介面[6]。該API最初僅開放給有限數量的開發者使用,這些開發者需加入候補名單方能獲取,其後才對公眾開放[7]

Google與DeepMind開發了一款名為Med-PaLM的PaLM 540B(參數數量達5400億)版本,該模型經醫療數據微調後,在醫療問答基準測試中表現超越前代模型[8][9]。Med-PaLM是首個在美國醫師執照考試題庫中取得合格分數的模型,除能精準回答選擇題與開放式問題外,還能提供推理過程並自我評估回答準確性[10]

Google還透過視覺transformer擴展了PaLM,創造出PaLM-E——一款可應用於機器人操作的尖端視覺語言模型[11][12]。該模型能在機器人領域執行任務時展現競爭力,且無需重新訓練或微調[13]

2023年5月,Google在年度Google I/O主題演講中宣布推出PaLM 2[14]。據報導,PaLM 2是一款擁有3,400億個參數的模型,其訓練數據包含3.6兆個詞元[15]

2023年6月,Google宣布推出採用PaLM-2架構與初始化的語音轉語音翻譯系統AudioPaLM[16]

Remove ads

訓練

PaLM預先訓練於一個包含7800億個詞元的優質語料庫,涵蓋各類自然語言任務與應用場景。此資料集包含過濾後的網頁內容、書籍、維基百科條目、新聞文章、從GitHub開源儲存庫取得的原始碼,以及社群媒體對話[1][2]。該模型基於用於訓練Google LaMDA模型的數據集[2] 。該數據集中的社交媒體對話內容佔語料庫的50%,有助於提升模型的對話能力[2]

PaLM 540B於兩個TPU v4叢集上進行訓練,每個叢集配備3,072顆TPU v4晶片,連接至768台主機,採用模型並行與資料平行混合架構,此為迄今規模最大的TPU配置[2][17]。此架構透過6,144顆晶片實現高效大規模訓練,創下同等規模下大型語言模型最高訓練效率紀錄:每秒浮點運算次數利用率達57.8%[3]

參見

  • LaMDA,PaLM的前任模型
  • Gemini,PaLM的後任模型

參考資料

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads