热门问题
时间线
聊天
视角
路径语言模型
来自维基百科,自由的百科全书
Remove ads
路径语言模型(英语:Pathways Language Model,通称:PaLM)是由Google AI开发的5400亿参数密集型解码器专用transformer架构大型语言模型(LLM)[1]。研究人员同时训练了PaLM的精简版本(分别为80亿与620亿参数),以测试模型规模的影响[2]。
模型
PaLM具备广泛的任务能力,涵盖常识推理、算术推理、笑话解释、程式码生成及翻译等领域[2][3][4][5]。当结合链式思考提示法时,PaLM在需要多步骤推理的数据集上表现显著提升,例如应用题与逻辑推理题型[1][2]。
该模型最初于2022年4月公布,并在2023年3月前保持私有状态。当时Google为PaLM及其他多项技术推出API介面[6]。该API最初仅开放给有限数量的开发者使用,这些开发者需加入候补名单方能获取,其后才对公众开放[7]。
Google与DeepMind开发了一款名为Med-PaLM的PaLM 540B(参数数量达5400亿)版本,该模型经医疗数据微调后,在医疗问答基准测试中表现超越前代模型[8][9]。Med-PaLM是首个在美国医师执照考试题库中取得合格分数的模型,除能精准回答选择题与开放式问题外,还能提供推理过程并自我评估回答准确性[10]。
Google还透过视觉transformer扩展了PaLM,创造出PaLM-E——一款可应用于机器人操作的尖端视觉语言模型[11][12]。该模型能在机器人领域执行任务时展现竞争力,且无需重新训练或微调[13]。
2023年5月,Google在年度Google I/O主题演讲中宣布推出PaLM 2[14]。据报导,PaLM 2是一款拥有3,400亿个参数的模型,其训练数据包含3.6兆个词元[15]。
2023年6月,Google宣布推出采用PaLM-2架构与初始化的语音转语音翻译系统AudioPaLM[16]。
Remove ads
训练
PaLM预先训练于一个包含7800亿个词元的优质语料库,涵盖各类自然语言任务与应用场景。此资料集包含过滤后的网页内容、书籍、维基百科条目、新闻文章、从GitHub开源储存库取得的原始码,以及社群媒体对话[1][2]。该模型基于用于训练Google LaMDA模型的数据集[2] 。该数据集中的社交媒体对话内容占语料库的50%,有助于提升模型的对话能力[2]。
PaLM 540B于两个TPU v4丛集上进行训练,每个丛集配备3,072颗TPU v4晶片,连接至768台主机,采用模型并行与资料平行混合架构,此为迄今规模最大的TPU配置[2][17]。此架构透过6,144颗晶片实现高效大规模训练,创下同等规模下大型语言模型最高训练效率纪录:每秒浮点运算次数利用率达57.8%[3]。
参见
参考资料
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads