热门问题
时间线
聊天
视角

大型語言模型列表

維基媒體列表條目 来自维基百科,自由的百科全书

Remove ads

大型語言模型 (LLM) 是一種機器學習模型,專為語言生成等自然語言處理任務而設計。LLM 是具有許多參數的語言模型,並通過對大量文本進行自監督學習進行訓練。

本頁列出了值得注意的大型語言模型。

對於訓練成本一列,1 petaFLOP-day = 1 petaFLOP/sec × 1 天 = 8.64×1019 FLOP。此外,僅列出最大模型的成本。

更多信息 名稱, 發布日期[a] ...
Remove ads

參見

注釋

  1. 這是描述模型架構的文檔首次發布的日期。
  2. 在許多情況下,研究人員會發布或報告具有不同尺寸的多個模型版本。在這些情況下,此處會列出最大模型的尺寸。
  3. 這是預訓練模型權重的許可證。在幾乎所有情況下,訓練代碼本身都是開源的或可以輕鬆複製。
  4. The smaller models including 66B are publicly available, while the 175B model is available on request.
  5. Facebook's license and distribution scheme restricted access to approved researchers, but the model weights were leaked and became widely available.
  6. As stated in Technical report: "Given both the competitive landscape and the safety implications of large-scale models like GPT-4, this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method ..."[58]
Remove ads

參考資料

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads