热门问题
时间线
聊天
视角

盤古大模型

来自维基百科,自由的百科全书

Remove ads

盤古大模型華為雲推出的一種人工智慧大模型,該模型在各種領域都有廣泛的應用,已在煤礦、鐵路、氣象、金融、代碼開發、數字內容生成等領域發揮作用。[1]

快速預覽 開發者, 首次發布 ...

大型學習語言模型的名稱「盤古」源自中國神話和民間傳說中的盤古,盤古是與創世有關的原始人物。[2]

歷史

早期發展

2023年4月,華為發布論文詳細介紹了盤古-Σ的開發。盤古-Σ是一個擁有1.085萬億個參數的龐大語言模型。該模型基於華為MindSpore 5框架開發,在搭載512顆昇騰910 AI加速器晶片的集群系統上訓練超過100天,處理了40多種自然語言和程式語言的3290億個token。[3]

盤古-Σ 融合了隨機路由專家和變壓器解碼器架構,可輕鬆提取子模型,用於對話、翻譯、代碼生成和自然語言解釋等各種應用。與具有相同超參數的混合專家模型相比,該模型的訓練吞吐量提高了6.3倍。在中文領域,它在零樣本設置下,在6個任務中的表現超越了之前最先進的模型。盤古-Σ 基於40個領域的數據集進行訓練,包括中文、英語、雙語和代碼,在少樣本學習(自然語言處理)、開放領域討論、問答機器翻譯和代碼編寫方面表現出色。[4][5]

發動

在2023年7月7日舉行的華為開發者大會上,華為推出盤古大模型3.0,利用華為雲解決方案為政府、金融、製造、採礦和氣象等行業量身定製。次月,華為推出具有人工智慧的智慧助手小藝,可根據用戶語音回復和生成文案,並將用於鴻蒙作業系統4.0所支持的設備。[6][7][8]

LLM專為尋求在人工智慧行業中占據優勢的企業而設計,它注重任務執行而不是創造性工作,這與聊天機器人、詩歌和視覺內容創作等用於一般用途的傳統模型不同。[9]

華為的LLM採用與ChatGPT相同的技術,具有分層架構,允許客戶將模型適應各種任務並在自己的數據集上進行訓練,使其適用於各個行業。[10]

更新

2023年8月5日,華為與歐洲中期天氣預報中心合作,推出了一個全球天氣預報AI模型。該模型採用了華為雲解決方案以及基於MindSpore的盤古天氣模型。該模型可在ECMWF網站上訪問,旨在提供精準的天氣數據。[11][12]

2023年12月19日,華為宣布面向全球市場推出基於盤古AI金融平台的金融服務。這家科技巨頭在2023年華為雲金融科技峰會上推出了這款產品,旨在以高效的功能重塑數字金融行業,助力全球金融科技公司發展。該平台融合了人工智慧、大數據分析和區塊鏈等多種先進技術。[13]

2024年6月21日,在HDC 2024大會上,華為宣布升級版盤古5.0與鴻蒙星河版一同發布。該版本與鴻蒙集成,鴻蒙配備了更智能的虛擬助手小藝,並專注於對其大型語言模型平台進行生成式AI更新,用於創建新內容,例如文本、代碼或圖像。為了讓廣泛的開發者和企業能夠使用盤古,它提供了可擴展的選項:針對資源有限的用戶,提供計算能力較低的小型模型;針對需要更多處理能力的複雜任務,提供容量更大的大型模型。[14]

2025年6月30日,華為宣布開源盤古70億參數的稠密模型、盤古Pro MoE 720億參數的混合專家模型。[15]

Remove ads

技術規格

盤古大模型3.0面向行業應用,採用5+N+X三層架構。[16]

  • 第一層(L0):包含盤古的五大基礎模型,為不同的行業場景提供豐富的能力。這些模型包括自然語言處理模型、視覺模型、多模態模型、預測模型和科學計算模型。
  • 第二層(L1):由N個大型行業特定模型組成。這些模型使用來自政府、金融、製造、採礦和氣象等各行各業的公共數據進行訓練。此外,它還使用來自L0和L1的客戶自有數據,為每個客戶量身定製訓練專有模型。
  • 第三層(L2):為客戶提供詳細的場景化模型。該層針對具體的應用或業務需求,提供可立即使用的模型服務。

華為雲業務部門更新的華為盤古模型5.0具有三大關鍵特性:適應不同業務場景、多風格建模和高級智能。華為將 AI 模型平台分為四個系列,每個系列具有不同的參數尺度:[17]

  • 盤古E系列:嵌入式版本支持手機、平板、PC等設備上的智能應用,參數規模達10億級。
  • 盤古P系列:專業版擁有百億參數規模,非常適合低延遲、低成本的推理條件。
  • 盤古U系列:Ultra版本有兩種版本,分別擁有1350億和2300億個參數,能夠處理複雜任務並作為大型模型的基礎。
  • 盤古S系列:超級盤古是其頂級版本,擁有萬億級參數,旨在管理跨域或多任務應用等高級AI技術場景。
Remove ads

盤古氣象大模型

盤古氣象大模型(英語:Pangu-Weather)是盤古大模型的一個重要應用,它是首個精度超過傳統數值預報方法的AI預測模型。該模型突破了AI預報天氣精度不及傳統數值預報的世界性難題,對比傳統方法預測速度提升10000倍,可秒級完成對全球氣象的預測。盤古氣象大模型的水平空間解析度達到0.25°×0.25°,時間解析度為1小時,覆蓋13層垂直高度,可以精準地預測細粒度氣象特徵。[18]

爭議

Pro MoE 模型指紋相似性爭議(2025 年)

2025年7月4日,一個在 GitHub 上新註冊的 "Honest AGI" 帳號發布技術報告[19][20][21],稱華為開源的 PanGu-Pro-MoE 72B 與阿里雲 Qwen 2.5-14B 模型在多頭注意力參數的標準差指紋上相關係數高達 0.927[22],據此推測盤古模型可能並非從零訓練,而是基於 Qwen 權重繼續訓練。該倉庫數小時後被刪除,同日晚間同名帳號重新建立鏡像倉庫並重發報告,引發外界對報告來源與方法的關注。與此同時,一封署名"華為諾亞方舟實驗室員工"的匿名長文《盤古之殤》在 GitHub 流傳[23][24],文章指稱團隊內部存在"套殼、洗水印"等做法,並描述了研發流程與管理矛盾。

華為官方說明

7月5日,華為諾亞方舟實驗室通過多家媒體發布聲明[25][26][27][28][29]指出:盤古系列模型依託自研昇騰晶片全棧訓練,在第三方模型權重上進行增量訓練;倉庫中出現的 Qwen 許可證屬於對開原始碼的合規引用[30];"標準差指紋"方法缺乏公認的科學驗證,不能據此認定模型同源。

社區與學術討論

多名研究者對 Honest AGI 報告的嚴謹性提出質疑[31],指出報告中列出的數篇參考文獻在 arXiv 檢索不到,且算法未經同行評審。亦有開發者復現該"指紋"算法並發現,不同架構或層數的模型之間亦可能出現較高相關性,認為數據不足以直接證明權重複用。截至2025年7月,尚無獨立第三方機構發布正式鑑定結論,事件仍在持續討論中[32]

參考資料

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads