热门问题
时间线
聊天
视角

盘古大模型

来自维基百科,自由的百科全书

Remove ads

盘古大模型华为云推出的一种人工智能大模型,该模型在各种领域都有广泛的应用,已在煤矿、铁路、气象、金融、代码开发、数字内容生成等领域发挥作用。[1]

事实速览 开发者, 首次发布 ...

大型学习语言模型的名称“盘古”源自中国神话和民间传说中的盘古,盘古是与创世有关的原始人物。[2]

历史

早期发展

2023年4月,华为发布论文详细介绍了盘古-Σ的开发。盘古-Σ是一个拥有1.085万亿个参数的庞大语言模型。该模型基于华为MindSpore 5框架开发,在搭载512颗昇腾910 AI加速器芯片的集群系统上训练超过100天,处理了40多种自然语言和编程语言的3290亿个token。[3]

盘古-Σ 融合了随机路由专家和变压器解码器架构,可轻松提取子模型,用于对话、翻译、代码生成和自然语言解释等各种应用。与具有相同超参数的混合专家模型相比,该模型的训练吞吐量提高了6.3倍。在中文领域,它在零样本设置下,在6个任务中的表现超越了之前最先进的模型。盘古-Σ 基于40个领域的数据集进行训练,包括中文、英语、双语和代码,在少样本学习(自然语言处理)、开放领域讨论、问答机器翻译和代码编写方面表现出色。[4][5]

发动

在2023年7月7日举行的华为开发者大会上,华为推出盘古大模型3.0,利用华为云解决方案为政府、金融、制造、采矿和气象等行业量身定制。次月,华为推出具有人工智能的智慧助手小艺,可根据用户语音回复和生成文案,并将用于鸿蒙操作系统4.0所支持的设备。[6][7][8]

LLM专为寻求在人工智能行业中占据优势的企业而设计,它注重任务执行而不是创造性工作,这与聊天机器人、诗歌和视觉内容创作等用于一般用途的传统模型不同。[9]

华为的LLM采用与ChatGPT相同的技术,具有分层架构,允许客户将模型适应各种任务并在自己的数据集上进行训练,使其适用于各个行业。[10]

更新

2023年8月5日,华为与欧洲中期天气预报中心合作,推出了一个全球天气预报AI模型。该模型采用了华为云解决方案以及基于MindSpore的盘古天气模型。该模型可在ECMWF网站上访问,旨在提供精准的天气数据。[11][12]

2023年12月19日,华为宣布面向全球市场推出基于盘古AI金融平台的金融服务。这家科技巨头在2023年华为云金融科技峰会上推出了这款产品,旨在以高效的功能重塑数字金融行业,助力全球金融科技公司发展。该平台融合了人工智能、大数据分析和区块链等多种先进技术。[13]

2024年6月21日,在HDC 2024大会上,华为宣布升级版盘古5.0与鸿蒙星河版一同发布。该版本与鸿蒙集成,鸿蒙配备了更智能的虚拟助手小艺,并专注于对其大型语言模型平台进行生成式AI更新,用于创建新内容,例如文本、代码或图像。为了让广泛的开发者和企业能够使用盘古,它提供了可扩展的选项:针对资源有限的用户,提供计算能力较低的小型模型;针对需要更多处理能力的复杂任务,提供容量更大的大型模型。[14]

2025年6月30日,华为宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型。[15]

Remove ads

技术规格

盘古大模型3.0面向行业应用,采用5+N+X三层架构。[16]

  • 第一层(L0):包含盘古的五大基础模型,为不同的行业场景提供丰富的能力。这些模型包括自然语言处理模型、视觉模型、多模态模型、预测模型和科学计算模型。
  • 第二层(L1):由N个大型行业特定模型组成。这些模型使用来自政府、金融、制造、采矿和气象等各行各业的公共数据进行训练。此外,它还使用来自L0和L1的客户自有数据,为每个客户量身定制训练专有模型。
  • 第三层(L2):为客户提供详细的场景化模型。该层针对具体的应用或业务需求,提供可立即使用的模型服务。

华为云业务部门更新的华为盘古模型5.0具有三大关键特性:适应不同业务场景、多风格建模和高级智能。华为将 AI 模型平台分为四个系列,每个系列具有不同的参数尺度:[17]

  • 盘古E系列:嵌入式版本支持手机、平板、PC等设备上的智能应用,参数规模达10亿级。
  • 盘古P系列:专业版拥有百亿参数规模,非常适合低延迟、低成本的推理条件。
  • 盘古U系列:Ultra版本有两种版本,分别拥有1350亿和2300亿个参数,能够处理复杂任务并作为大型模型的基础。
  • 盘古S系列:超级盘古是其顶级版本,拥有万亿级参数,旨在管理跨域或多任务应用等高级AI技术场景。
Remove ads

盘古气象大模型

盘古气象大模型(英语:Pangu-Weather)是盘古大模型的一个重要应用,它是首个精度超过传统数值预报方法的AI预测模型。该模型突破了AI预报天气精度不及传统数值预报的世界性难题,对比传统方法预测速度提升10000倍,可秒级完成对全球气象的预测。盘古气象大模型的水平空间分辨率达到0.25°×0.25°,时间分辨率为1小时,覆盖13层垂直高度,可以精准地预测细粒度气象特征。[18]

争议

Pro MoE 模型指纹相似性争议(2025 年)

2025年7月4日,一个在 GitHub 上新注册的 "Honest AGI" 账号发布技术报告[19][20][21],称华为开源的 PanGu-Pro-MoE 72B 与阿里云 Qwen 2.5-14B 模型在多头注意力参数的标准差指纹上相关系数高达 0.927[22],据此推测盘古模型可能并非从零训练,而是基于 Qwen 权重继续训练。该仓库数小时后被删除,同日晚间同名账号重新建立镜像仓库并重发报告,引发外界对报告来源与方法的关注。与此同时,一封署名"华为诺亚方舟实验室员工"的匿名长文《盘古之殇》在 GitHub 流传[23][24],文章指称团队内部存在"套壳、洗水印"等做法,并描述了研发流程与管理矛盾。

华为官方说明

7月5日,华为诺亚方舟实验室通过多家媒体发布声明[25][26][27][28][29]指出:盘古系列模型依托自研昇腾芯片全栈训练,在第三方模型权重上进行增量训练;仓库中出现的 Qwen 许可证属于对开源代码的合规引用[30];"标准差指纹"方法缺乏公认的科学验证,不能据此认定模型同源。

社区与学术讨论

多名研究者对 Honest AGI 报告的严谨性提出质疑[31],指出报告中列出的数篇参考文献在 arXiv 检索不到,且算法未经同行评审。亦有开发者复现该"指纹"算法并发现,不同架构或层数的模型之间亦可能出现较高相关性,认为数据不足以直接证明权重复用。截至2025年7月,尚无独立第三方机构发布正式鉴定结论,事件仍在持续讨论中[32]

参考资料

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads