热门问题
时间线
聊天
视角
大型語言模型列表
維基媒體列表條目 来自维基百科,自由的百科全书
Remove ads
大型語言模型(LLM)是一種機器學習模型,專為語言生成等自然語言處理任務而設計。LLM 是具有許多參數的語言模型,並通過對大量文本進行自監督學習進行訓練。
本頁列出了值得注意的大型語言模型。
對於訓練成本一列,1 petaFLOP-day = 1 petaFLOP/sec × 1 天 = 8.64×1019 FLOP。此外,僅列出最大模型的成本。
更多信息 名稱, 發布日期[a] ...
名稱 | 發布日期[a] | 開發者 | 參數量 (十億) [b] | 語料庫大小 | 訓練成本 (petaFLOP-day) | 許可證[c] | 註解 |
---|---|---|---|---|---|---|---|
Attention Is All You Need | 000000002017-06-01-00002017年6月 | 瓦斯瓦尼等人在Google發表 | 0.213 | 3600萬個英語-法語句子對 | 0.09[1] | 未釋出 | 在8個NVIDIA P100 GPU上訓練了0.3M步驟。訓練和評估代碼根據Apache 2.0許可證發布。[2] |
GPT-1 | 000000002018-06-01-00002018年6月 | OpenAI | 0.117 !0.117 | 1[3] | MIT[4] | 首個GPT模型,為僅解碼器transformer。 在8個P600GPU上訓練了30天。 | |
BERT | 000000002018-10-01-00002018年10月 | 0.340 !0.340[5] | 3300000000 !33億單詞[5] | 9 !9[6] | Apache 2.0[7] | 這是一個早期且有影響力的語言模型。[8] 僅用於編碼器,因此並非為提示或生成而構建。[9] 在 64 個 TPUv2 芯片上訓練耗時 4 天。[10] | |
T5(英語:T5 (language model)) | 000000002019-10-01-00002019年10月 | 11 !11[11] | 340億 tokens[11] | Apache 2.0[12] | 許多Google項目的基礎模型,例如Imagen。[13] | ||
XLNet(英語:XLNet) | 000000002019-06-01-00002019年6月 | 0.340 !0.340[14] | 3300000000 !330億單詞 | 330 | Apache 2.0[15] | 作為BERT的替代,設計為僅編碼器 。在512個TPU v3芯片上訓練了5.5天。[16] | |
GPT-2 | 000000002019-02-01-00002019年2月 | OpenAI | 1.5 !1.5[17] | 40 GB[18] (~10000000000 !100億 tokens)[19] | 28[20] | MIT[21] | 在32個TPU v3芯片上訓練了一周。[20] |
GPT-3 | 000000002020-05-01-00002020年5月 | OpenAI | 175 !175[22] | 300000000000 !3000億 tokens[19] | 3640[23] | Proprietary | A fine-tuned variant of GPT-3, termed GPT-3.5, was made available to the public through a web interface called ChatGPT in 2022.[24] |
GPT-Neo | 000000002021-03-01-00002021年3月 | EleutherAI(英語:EleutherAI) | 2.7 !2.7[25] | 825 GiB[26] | MIT[27] | The first of a series of free GPT-3 alternatives released by EleutherAI. GPT-Neo outperformed an equivalent-size GPT-3 model on some benchmarks, but was significantly worse than the largest GPT-3.[27] | |
GPT-J(英語:GPT-J) | 000000002021-06-01-00002021年6月 | EleutherAI(英語:EleutherAI) | 6 !6[28] | 825 GiB[26] | 200[29] | Apache 2.0 | GPT-3-style language model |
Megatron-Turing NLG | 000000002021-10-01-00002021年10月 [30] | Microsoft and Nvidia | 530 !530[31] | 338600000000 !338.6 billion tokens[31] | 38000[32] | Restricted web access | Trained for 3 months on over 2000 A100 GPUs on the NVIDIA Selene Supercomputer, for over 3 million GPU-hours.[32] |
Ernie 3.0 Titan | 000000002021-12-01-00002021年12月 | Baidu | 260 !260[33] | 4 Tb | Proprietary | Chinese-language LLM. Ernie Bot is based on this model. | |
Claude[34] | 000000002021-12-01-00002021年12月 | Anthropic | 52 !52[35] | 400000000000 !400 billion tokens[35] | beta | Fine-tuned for desirable behavior in conversations.[36] | |
GLaM (Generalist Language Model) | 000000002021-12-01-00002021年12月 | 1200 !1200[37] | 1600000000000 !1.6 trillion tokens[37] | 5600[37] | Proprietary | Sparse mixture of experts model, making it more expensive to train but cheaper to run inference compared to GPT-3. | |
Gopher | 000000002021-12-01-00002021年12月 | DeepMind | 280 !280[38] | 300000000000 !300 billion tokens[39] | 5833[40] | Proprietary | Later developed into the Chinchilla model. |
LaMDA (Language Models for Dialog Applications) | 000000002022-01-01-00002022年1月 | 137 !137[41] | 1.56T words,[41] 168000000000 !168 billion tokens[39] | 4110[42] | Proprietary | Specialized for response generation in conversations. | |
GPT-NeoX | 000000002022-02-01-00002022年2月 | EleutherAI(英語:EleutherAI) | 20 !20[43] | 825 GiB[26] | 740[29] | Apache 2.0 | based on the Megatron architecture |
Chinchilla | 000000002022-03-01-00002022年3月 | DeepMind | 70 !70[44] | 1400000000000 !1.4 trillion tokens[44][39] | 6805[40] | Proprietary | Reduced-parameter model trained on more data. Used in the Sparrow bot. Often cited for its neural scaling law. |
PaLM(路徑語言模型) | 000000002022-04-01-00002022年4月 | 540 !540[45] | 768000000000 !768 billion tokens[44] | 29250 !29,250[40] | Proprietary | Trained for ~60 days on ~6000 TPU v4 chips.[40] 截至2024年10月 (2024-10)[update], it is the largest dense Transformer published. | |
OPT (Open Pretrained Transformer) | 000000002022-05-01-00002022年5月 | Meta | 175 !175[46] | 180000000000 !180 billion tokens[47] | 310[29] | Non-commercial research[d] | GPT-3 architecture with some adaptations from Megatron. Uniquely, the training logbook written by the team was published.[48] |
YaLM 100B | 000000002022-06-01-00002022年6月 | Yandex | 100 !100[49] | 1.7TB[49] | Apache 2.0 | English-Russian model based on Microsoft's Megatron-LM. | |
Minerva | 000000002022-06-01-00002022年6月 | 540 !540[50] | 38.5B tokens from webpages filtered for mathematical content and from papers submitted to the arXiv preprint server[50] | Proprietary | For solving "mathematical and scientific questions using step-by-step reasoning".[51] Initialized from PaLM models, then finetuned on mathematical and scientific data. | ||
BLOOM | 000000002022-07-01-00002022年7月 | Large collaboration led by Hugging Face | 175 !175[52] | 350000000000 !350 billion tokens (1.6TB)[53] | Responsible AI | Essentially GPT-3 but trained on a multi-lingual corpus (30% English excluding programming languages) | |
Galactica | 000000002022-11-01-00002022年11月 | Meta | 120 !120 | 350000000000 !106 billion tokens[54] | 未知 | CC-BY-NC-4.0 | Trained on scientific text and modalities. |
AlexaTM (Teacher Models) | 000000002022-11-01-00002022年11月 | Amazon | 20 !20[55] | 1300000000000 !1.3 trillion[56] | proprietary[57] | bidirectional sequence-to-sequence architecture | |
LLaMA (Large Language Model Meta AI) | 000000002023-02-01-00002023年2月 | Meta AI | 65 !65[58] | 1400000000000 !1.4 trillion[58] | 6300[59] | Non-commercial research[e] | Corpus has 20 languages. "Overtrained" (compared to Chinchilla scaling law) for better performance with fewer parameters.[58] |
GPT-4 | 000000002023-03-01-00002023年3月 | OpenAI | 未知[f] (According to rumors: 1760)[61] | 未知 | 未知 | proprietary | Available for ChatGPT Plus users and used in several products. |
Chameleon | 000000002024-06-01-00002024年6月 | Meta AI | 34 !34[62] | 4400000000000 !4.4 trillion | |||
Cerebras-GPT | 000000002023-03-01-00002023年3月 | Cerebras(英語:Cerebras) | 13 !13[63] | 270[29] | Apache 2.0 | Trained with Chinchilla formula. | |
Falcon | 000000002023-03-01-00002023年3月 | Technology Innovation Institute(英語:Technology Innovation Institute) | 40 !40[64] | 1 trillion tokens, from RefinedWeb (filtered web text corpus)[65] plus some "curated corpora".[66] | 2800[59] | Apache 2.0[67] | |
BloombergGPT | 000000002023-03-01-00002023年3月 | Bloomberg L.P. | 50 !50 | 363 billion token dataset based on Bloomberg's data sources, plus 345 billion tokens from general purpose datasets[68] | Proprietary | Trained on financial data from proprietary sources, for financial tasks. | |
PanGu-Σ | 000000002023-03-01-00002023年3月 | Huawei | 1085 !1085 | 329 billion tokens[69] | Proprietary | ||
OpenAssistant[70] | 000000002023-03-01-00002023年3月 | LAION(英語:LAION) | 17 !17 | 1.5 trillion tokens | Apache 2.0 | Trained on crowdsourced open data | |
Jurassic-2[71] | 000000002023-03-01-00002023年3月 | AI21 Labs | 未知 | 未知 | Proprietary | Multilingual[72] | |
PaLM 2(路徑語言模型2) | 000000002023-05-01-00002023年5月 | 340 !340[73] | 3600000000000 !3.6 trillion tokens[73] | 85000 !85,000[59] | Proprietary | Was used in Bard chatbot.[74] | |
Llama 2 | 000000002023-07-01-00002023年7月 | Meta AI | 70 !70[75] | 2000000000000 !2 trillion tokens[75] | 21000 !21,000 | Llama 2 license | 1.7 million A100-hours.[76] |
Claude 2 | 000000002023-07-01-00002023年7月 | Anthropic | 未知 | 未知 | 未知 | Proprietary | Used in Claude chatbot.[77] |
Granite 13b | 000000002023-07-01-00002023年7月 | IBM | 未知 | 未知 | 未知 | Proprietary | Used in IBM Watsonx.[78] |
Mistral 7B | 000000002023-09-01-00002023年9月 | Mistral AI | 7.3 !7.3[79] | 未知 | Apache 2.0 | ||
Claude 2.1 | 000000002023-11-01-00002023年11月 | Anthropic | 未知 | 未知 | 未知 | Proprietary | Used in Claude chatbot. Has a context window of 200,000 tokens, or ~500 pages.[80] |
Grok-1[81] | 000000002023-11-01-00002023年11月 | xAI | 314 | 未知 | 未知 | Apache 2.0 | Used in Grok chatbot. Grok-1 has a context length of 8,192 tokens and has access to X (Twitter).[82] |
Gemini 1.0 | 000000002023-12-01-00002023年12月 | Google DeepMind | 未知 | 未知 | 未知 | Proprietary | Multimodal model, comes in three sizes. Used in the chatbot of the same name.[83] |
Mixtral 8x7B | 000000002023-12-01-00002023年12月 | Mistral AI | 46.7 | 未知 | 未知 | Apache 2.0 | Outperforms GPT-3.5 and Llama 2 70B on many benchmarks.[84] Mixture of experts model, with 12.9 billion parameters activated per token.[85] |
Mixtral 8x22B | 000000002024-04-01-00002024年4月 | Mistral AI | 141 | 未知 | 未知 | Apache 2.0 | [86] |
DeepSeek LLM | 000000002023-11-29-00002023年11月29日 | DeepSeek | 67 | 2T tokens[87] | 12000 !12,000 | DeepSeek License | Trained on English and Chinese text. 1e24 FLOPs for 67B. 1e23 FLOPs for 7B[87] |
Phi-2 | 000000002023-12-01-00002023年12月 | Microsoft | 2.7 | 1.4T tokens | 419[88] | MIT | Trained on real and synthetic "textbook-quality" data, for 14 days on 96 A100 GPUs.[88] |
Gemini 1.5 | 000000002024-02-01-00002024年2月 | Google DeepMind | 未知 | 未知 | 未知 | Proprietary | Multimodal model, based on a Mixture-of-Experts (MoE) architecture. Context window above 1 million tokens.[89] |
Gemini Ultra | 000000002024-02-01-00002024年2月 | Google DeepMind | 未知 | 未知 | 未知 | ||
Gemma | 000000002024-02-01-00002024年2月 | Google DeepMind | 7 | 6T tokens | 未知 | Gemma Terms of Use[90] | |
Claude 3 | 000000002024-03-01-00002024年3月 | Anthropic | 未知 | 未知 | 未知 | Proprietary | Includes three models, Haiku, Sonnet, and Opus.[91] |
Nova (頁面存檔備份,存於網際網路檔案館) | 000000002024-10-01-00002024年10月 | Rubik's AI (頁面存檔備份,存於網際網路檔案館) | 未知 | 未知 | 未知 | Proprietary | Includes three models, Nova-Instant, Nova-Air, and Nova-Pro. |
DBRX | 000000002024-03-01-00002024年3月 | Databricks(英語:Databricks)與Mosaic ML | 136 !136 | 12T Tokens | Databricks Open Model License | Training cost 10 million USD. | |
Fugaku-LLM | 000000002024-05-01-00002024年5月 | 富士通與東京工業大學等 | 13 !13 | 380B Tokens | The largest model ever trained on CPU-only, on the Fugaku.[92] | ||
Phi-3 | 000000002024-04-01-00002024年4月 | Microsoft | 14[93] | 4.8T Tokens | MIT | Microsoft markets them as "small language model".[94] | |
Granite Code Models | 000000002024-05-01-00002024年5月 | IBM | 未知 | 未知 | 未知 | Apache 2.0 | |
Qwen2 | 000000002024-06-01-00002024年6月 | 阿里雲 | 72[95] | 3T Tokens | 未知 | Qwen License | Multiple sizes, the smallest being 0.5B. |
DeepSeek V2 | 000000002024-06-01-00002024年6月 | DeepSeek | 236 | 8.1T tokens | 28000 !28,000 | DeepSeek License | 1.4M hours on H800.[96] |
Nemotron-4 | 000000002024-06-01-00002024年6月 | Nvidia | 340 !340 | 9T Tokens | 200000 !200,000 | NVIDIA Open Model License | Trained for 1 epoch. Trained on 6144 H100 GPUs between December 2023 and May 2024.[97][98] |
Llama 3.1 | 000000002024-07-01-00002024年7月 | Meta AI | 405 | 15.6T tokens | 440000 !440,000 | Llama 3 license | 405B version took 31 million hours on H100-80GB, at 3.8E25 FLOPs.[99][100] |
DeepSeek V3 | 000000002024-12-01-00002024年12月 | DeepSeek | 671 | 14.8T tokens | 56000 !56,000 | DeepSeek License | 2.788M hours on H800 GPUs.[101] |
Amazon Nova | 000000002024-12-01-00002024年12月 | Amazon | 未知 | 未知 | 未知 | Proprietary | Includes three models, Nova Micro, Nova Lite, and Nova Pro[102] |
DeepSeek R1 | 000000002025-01-01-00002025年1月 | DeepSeek | 671 | 未知 | 未知 | MIT | No pretraining. Reinforcement-learned upon V3-Base.[103][104] |
Qwen2.5 | 000000002025-01-01-00002025年1月 | Alibaba | 72 | 18T tokens | 未知 | Qwen License | [105] |
MiniMax-Text-01 | January 2025 | Minimax | 456 | 4.7T tokens[106] | 未知 | Minimax Model license | [107][106] |
Gemini 2.0 | 000000002025-02-01-00002025年2月 | Google DeepMind | 未知 | 未知 | 未知 | Proprietary | Three models released: Flash, Flash-Lite and Pro[108][109][110] |
Mistral Large | 000000002024-11-01-00002024年11月 | Mistral AI | 123 | 未知 | 未知 | Mistral Research License | Upgraded over time. The latest version is 24.11.[111] |
Pixtral | 000000002024-11-01-00002024年11月 | Mistral AI | 123 | 未知 | 未知 | Mistral Research License | Multimodal. There is also a 12B version which is under Apache 2 license.[111] |
Grok 3 | 000000002025-02-01-00002025年2月 | xAI | 未知 | 未知 | 未知, estimated 5,800,000. |
專有 | Training cost claimed "10x the compute of previous state-of-the-art models".[112] |
Llama 4 | 000000002025-04-05-00002025年4月5日 | Meta AI | 400 !400 | 40000000000000 !40T tokens | Llama 4 license | [113][114] | |
Qwen3 | 000000002025-04-01-00002025年4月 | 阿里雲 | 235 | 36000000000000 !36T tokens | 未知 | Apache 2.0 | Multiple sizes, the smallest being 0.6B.[115] |
GPT-OSS | 000000002025-08-05-00002025年8月5日 | OpenAI | 117 | 未知 | 未知 | Apache 2.0 | 有20B和120B兩種模型大小發布。[116] |
关闭
Remove ads
參見
注釋
- 這是描述模型架構的文檔首次發布的日期。
- 在許多情況下,研究人員會發布或報告具有不同尺寸的多個模型版本。在這些情況下,此處會列出最大模型的尺寸。
- 這是預訓練模型權重的許可證。在幾乎所有情況下,訓練代碼本身都是開源的或可以輕鬆複製。
- The smaller models including 66B are publicly available, while the 175B model is available on request.
- Facebook's license and distribution scheme restricted access to approved researchers, but the model weights were leaked and became widely available.
Remove ads
參考資料
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads
Remove ads