2021年4月26日,在深圳召開的HDC全球開發(fā)者大會上,鵬城實驗室鵬城云腦技術總師、北京大學田永鴻教授發(fā)布了業(yè)界首個全開源2000億參數(shù)中文預訓練語言模型“盤古α”。這是國產(chǎn)全棧式AI基礎設施支持2000億級超大規(guī)模語言模型訓練的第1次,探索并驗證了國產(chǎn)E級智算平臺在軟硬件協(xié)同優(yōu)化、大規(guī)模分布式并行訓練等核心關鍵技術的可行性。代碼、模型、評測數(shù)據(jù)集全部同步在OpenI啟智社區(qū)全面開源開放,訓練語料和在線服務體驗將在測試評估優(yōu)化后開源開放。
田永鴻介紹,基于鵬城云腦II大科學裝置,“盤古α”形成了國產(chǎn)自主可控的通用超大規(guī)模分布式訓練基座及相關核心技術,由鵬城實驗室聯(lián)合諾亞方舟實驗室、Mindspore團隊以及北京大學組建的技術聯(lián)合攻關團隊,經(jīng)過數(shù)月的艱苦工作,開發(fā)完成了“盤古α”模型,模型在16個下游任務中大部分指標優(yōu)于SOTA模型,其中零樣本學習任務11個任務領先,單樣本學習任務12個任務領先,小樣本學習任務13個任務領先。

鵬城云腦技術總師田永鴻介紹“盤古α”
田永鴻表示,為了訓練“盤古α”這樣的超大規(guī)模參數(shù)的模型面臨諸多挑戰(zhàn),以鵬城實驗室為首的聯(lián)合攻關團隊做了許多的創(chuàng)新:首先構建了一個大規(guī)模中文訓練語料收集與自動化處理平臺,從近80TB多源文本數(shù)據(jù)中通過過濾、查重和模型評估提煉了近1.1TB高質量的訓練語料,為超大規(guī)模語言模型的訓練奠定了很好的基礎;從模型本身上提出了隨機順序自回歸訓練的模型ALM,提升了算法小樣本學習能力;MindSpore的多維度混合自動并行從工程上大幅提升了在大規(guī)模集群上自動訓練的效率;在OpenI啟智社區(qū)實現(xiàn)“盤古α”數(shù)據(jù)、算法、模型和服務的逐步全面開源開放,希望以啟智開源社區(qū)為載體,集眾智、聚眾力,吸引開發(fā)者共同參與到模型的壓縮輕量化和應用創(chuàng)新工作中,不斷探索“盤古α”模型的強大潛力。
OpenI啟智社區(qū)是在國家實施新一代人工智能發(fā)展戰(zhàn)略背景下,新一代人工智能產(chǎn)業(yè)技術創(chuàng)新戰(zhàn)略聯(lián)盟(AITISA)組織產(chǎn)學研用協(xié)作共建共享的開源平臺,旨在以鵬城云腦重大科研基礎設施及Trustie軟件開發(fā)群體化方法與平臺為基礎,全面推動人工智能領域的開源開放協(xié)同創(chuàng)新。“盤古α”的全面開源開放旨在通過以大模型為基礎,在探索通用智能的道路上不斷前進,打通大規(guī)模AI設備集群和通用性軟硬件生態(tài)協(xié)同的屏障,形成國產(chǎn)自主可控的通用超大規(guī)模分布式訓練基座及相關核心技術。同時通過支持開源開放、賦能相關產(chǎn)業(yè)界的應用創(chuàng)新和基礎研究的不斷協(xié)同進步。
“盤古α”開源地址:https://git.openi.org.cn/PCL-Platform.Intelligence/PanGu-Alpha
撰稿:網(wǎng)絡智能部 陶恒韜 趙海英









