热门问题
时间线
聊天
视角

大型语言模型列表

维基媒体列表条目 来自维基百科,自由的百科全书

Remove ads

大型语言模型 (LLM) 是一种机器学习模型,专为语言生成等自然语言处理任务而设计。LLM 是具有许多参数的语言模型,并通过对大量文本进行自监督学习进行训练。

本页列出了值得注意的大型语言模型。

对于训练成本一列,1 petaFLOP-day = 1 petaFLOP/sec × 1 天 = 8.64×1019 FLOP。此外,仅列出最大模型的成本。

更多信息 名称, 发布日期[a] ...
Remove ads

参见

注释

  1. 这是描述模型架构的文档首次发布的日期。
  2. 在许多情况下,研究人员会发布或报告具有不同尺寸的多个模型版本。在这些情况下,此处会列出最大模型的尺寸。
  3. 这是预训练模型权重的许可证。在几乎所有情况下,训练代码本身都是开源的或可以轻松复制。
  4. The smaller models including 66B are publicly available, while the 175B model is available on request.
  5. Facebook's license and distribution scheme restricted access to approved researchers, but the model weights were leaked and became widely available.
  6. As stated in Technical report: "Given both the competitive landscape and the safety implications of large-scale models like GPT-4, this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method ..."[58]
Remove ads

参考资料

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads