华东檀梦工艺品有限责任公司

投資中國
您的位置:首頁 >寬帶 > 正文

華為云盤古大模型:下礦坑、測臺風、進產線,沒時間作詩|甲子光年

來源:甲子光年 時間:2023-07-07 21:07:24

扎根行業,沒有發布“盤古Chat”。


(相關資料圖)

作者|涂明 朱悅

編輯|趙健

封面|《霍比特人3:五軍之戰》

“百模大戰”又添一員!

據不完全統計,在短短七個月時間內,全球“有名有姓”的大模型便已多達數百個,僅在中國就有至少80個。而在今天,“百模大戰”中又有一支強軍涌現——在華為開發者大會2023上,華為云發布了盤古大模型3.0。

過去半年,華為在燥熱的大模型市場顯得異常低調。雖然早在2021年4月,盤古大模型1.0就已經發布,早于今天大部分的大模型。但是,當ChatGPT掀起的大模型熱席卷全球時,與百度、阿里等大廠相比,華為的聲量要小的多。

似乎是為了解釋此前的“低調”,也似乎是為了喊話眼下“琴棋書畫詩文”俱全的AI應用現狀。今天,華為常務董事、華為云CEO張平安明確喊出了盤古大模型的價值觀: “不作詩,只做事。”

“不作詩”表明華為不會推出類似ChatGPT、百度文心一言、阿里通義千問等面向C端用戶的聊天機器人產品,而“只做事”意味著盤古大模型把重心放在了B端行業大模型的落地上。

盤古大模型All in B端市場,這一判斷也與ChatGPT的市場走勢形成了對比。今年6月,ChatGPT的全球流量環比下滑了10% ,意味著人們對于聊天機器人產品的興趣正在降低,相比之下,to B市場還是一片藍海。

華為本身就是做企業市場起家,對于服務企業用戶有更為豐富的經驗。

雖然表面看起來華為云是各大云廠商中對大模型的反應最慢的一家,但實際上盤古大模型已經在政務、金融、制造、煤礦、鐵路、制藥、氣象等十幾個行業的數百個場景落地,在國內云廠商中獨樹一幟。同時,與盤古大模型3.0一同上線的,還有華為云昇騰AI云服務。

大模型普遍被云廠商看作是下一個重要的增長點。根據IDC數據,華為云2022年在國內的市場份額位居第二,僅次于阿里云之后。而在行業市場的充分布局,有望讓華為云進一步搶占市場。

這場關于AI的云端戰爭,已經正式打響了。

1.更新至3.0,盤古大模型有哪些亮點?

盤古大模型3.0都包含什么?據張平安介紹,這是一個涵蓋三級體系的“大家伙”。

三級體系是華為在2022年4月提出的概念,即基礎大模型L0、行業大模型L1,以及場景大模型L2。三者層層遞進,從通用能力逐漸向各個垂直領域演進,由此“重塑行業”,支撐起華為“AI for industries”的宏大目標。

具體而言,盤古大模型在L0層面包含五大基礎大模型,分別是 語音語義大模型(NLP)、視覺大模型(CV)、科學計算大模型、多模態大模型和圖網絡大模型。

其中,盤古NLP大模型是業界首個千億參數的中文預訓練大模型,首次使用了Encoder-Decoder架構(與谷歌T5相同),可以讓大模型兼具語言的理解與生成兩種能力。盤古NLP大模型由華為云和循環智能聯合開發,由鵬城實驗室提供算力支持。

CV大模型參數量為30億,是業界首次實現按需抽取的模型;科學計算大模型主要解決各種科學問題,擁有湍流模擬、天氣預報、自然災害預警等多種能力;多模態大模型則具備圖像和文本的跨模態理解、檢索與生成能力;圖網絡大模型主要解決數據異質化問題,華為首創了圖網絡融合技術,極大拓展了大模型的泛化能力,讓一個模型能夠應用于多個任務。

在L0基礎大模型底座之上,華為結合行業數據進一步訓練,就是L1行業大模型。去年11月,華為云首次公布了在礦山、氣象、藥物大分子、金融等四個領域的行業大模型;L2則是在L1行業大模型基礎上,更進一步深入細分場景的推理模型,比如金融領域的金融違約風險識別模型、柜臺工作人員工作流程指導模型等。

在今天發布的盤古大模型3.0中,NLP大模型和多模態大模型得到了兩個重磅升級,其余三大模型將從這些進步中獲益。

第一個升級發生在NLP大模型上。過去,大模型領域彌漫著一種“參數量至上”的評價氛圍,大廠之間的大模型參數量從數千萬迅速“卷”上了千億級別。 張平安表示,其實對大模型而言,參數量的大小并不是最佳評價標準,如何用好參數、讓大模型運行地更穩定、對行業適應性更強,才更值得關注。

因此,在盤古大模型3.0中,華為在原有的千億級參數NLP模型外,還發布了710億、380億、100億等多種參數級別的模型。張平安表示,“華為的AI管道里跑了幾十款模型,之所以提供這么多不同參數的模型,是因為要考慮到不同行業、不同應用場景下中,客戶對大模型的不同需求。核心是用最低的算力消耗,實現最匹配的解決效果”。

第二個升級則是“將大模型分為‘Data’、‘Foundation’和‘Capability’三層,彼此間相互解耦”。

據張平安介紹,Data指數據層,華為單獨為所有大模型設計了一個訓練數據池,Foundation層即基礎層,是不同參數大模型之間的差異,而Capability是能力層,各個大模型之間的能力層要做到一致,即“所有大模型共用一個能力集”。張平安強調,“能力集是一個全新的設置”。

他舉了個例子,比如多模態大模型的能力集包括圖像生成、圖像理解等。能力集共用以后,一方面,這些能力集“可以直接被客戶調用”,另一方面“科學計算大模型、視覺大模型等也可以直接調用多模態大模型的能力”。

對于這一點改變,張平安表示,數據層解耦后,“每次訓練都可以明確調用的是哪些數據”,這有利于數據安全,并能解釋不同模型能力的區別?;A層和能力層的解耦更重要,“基礎層和能力層解耦以后,你不管用什么參數級別、基礎類型的大模型,300億也好,1000億也好,多模態也好,科學計算也好,在能力上完全一致?!?/span>

Foundation和Capability為什么一定要解耦?這種變化的威力有多大?

張平安認為,將能力集獨立出來,做到完全解耦,是讓大模型配適不同場景所必須的一步。而在這種變化的基礎上,華為盤古大模型成功從“小作坊”的生產模式進入到“工業化”時代,盤古大模型因此有能力“重塑千行百業”。

2.AI for Industries,盤古沒時間作詩

L0層面的變化,帶來了L1層面的躍進。

在盤古大模型3.0發布會上,張平安和華為云EI服務產品部部長尤鵬一起展示了盤古大模型應用在礦山、鐵路、氣象、金融、制造、編程、視頻等七個行業領域時的威力。

比如在礦山行業,盤古大模型的能力是實現礦洞的無人巡檢、遠程作業。

在礦山作業危險度極高,由于礦洞中光線昏暗、浮塵密布、視野限制較大,攝像頭能發揮的作用不大,所以礦山中的巡視檢查工作一般都要由人工來完成。而通過盤古透塵大模型與視覺大模型,工作人員不用下井就能夠輕易識別井下情況,實現遠程操作。

目前,華為在礦山領域已經與山東能源集團及其技術公司云鼎科技達成深度合作,雙方共同開發了21個場景化應用,覆蓋了7大業務系統,在全國的8個礦井里做到了規?;褂茫軌蚋采w煤礦采、掘、運通、洗等全流程下的1000多個細分場景。

還有鐵路領域,盤古大模型的能力是助力貨車完成安全檢測。

據張平安介紹,中國總共擁有超過100萬輛貨車,每年跑在鐵路上的貨物高達將近五十億噸。為保證這些貨車的安全,傳統的做法是在軌道旁邊安裝高速攝像機,火車經過時對其底部進行高速攝影,拍攝圖片送到檢測員手中,人工識別可能的故障點。

這是一套工作量極大且不甚可靠的工作方法。張平安做過統計,一個交通樞紐假如每天要過站1000輛貨車,則需要采集的照片數量為400萬張。這些工作需要260個有經驗的檢測員四班倒才能完成。

而應用盤古視覺大模型之后,一雙盤古眼就能看完所有的圖片,由盤古進行初篩,初篩之后再由檢測員確認具體的危險。據統計,盤古大模型可以將400萬張照片篩至20萬張照片,篩除率高達95%,且故障的檢測漏檢率為0,能將檢測效率提升20倍,極大降低人工工作負擔。

類似的例子還有很多,比如氣象預測領域,傳統的預測方法要占用3000臺服務器,計算4~5小時才能完成,而盤古大模型只需要在單臺機器上工作10秒,張平安透露,盤古氣象預測模型的結構已經成為歐洲氣象局的參考之一。昨天(7月6日),盤古云氣象大模型的相關論文還登在了國際頂級學術期刊《Nature》上。

在金融行業,華為與中國工商銀行合作打造金融大模型,幫助優化員工工作流程。工行在全國有4萬個網點、20萬+員工,應用華為大模型后,單次業務辦理流程能從5環降低為1環,單次結算時間減少5分鐘;在制造業,盤古大模型已經走進華為的制造生產線,其天籌集求解器已經被用于幫助華為設計排產計劃,排產工作的耗時從三小時排一天計劃,縮短到1分鐘排出未來三天計劃。在視頻領域,盤古大模型可以用三分鐘完成過去三個人花三天才能完成的工作量。

據華為云人工智能首席科學家田奇介紹, 在過去幾年,華為云人工智能項目已經應用超過1000個項目中,其中30%用在客戶的核心生產系統里,平均可以推動客戶盈利能力提升18%。張平安對此很驕傲,在華為開發者大會上多次呼吁,“讓我們為盤古大模型鼓個掌?!?

張平安表示,“很多大模型,表現看起來都很好,會寫詩、會畫畫、會講故事,華為不一樣,華為的盤古大模型不會作詩,只會做事”,他強調了華為的AI for Industries戰略,“盤古大模型是要扎根行業的,它要下礦坑、測臺風,沒時間作詩”。

3.昇騰AI云服務已上線

華為云盤古大模型的創新力來自什么?

張平安提到,一方面來自大模型自身模型的創新,另外一方面來自堅實的AI堆棧,即AI根技術。AI根技術包括底層算力、AI計算框架、AI開發平臺、AI工程平臺等。如果沒有成熟的AI根技術,大模型也很難發揮出出色的價值。

對于底層算力,英偉達的GPU芯片是訓練大模型的最佳載體。但由于芯片禁令,華為是無法使用業內最成熟的GPU與配套軟件的。因此,華為只能依靠自研的芯片。

在算力層,華為構建了“鯤鵬CPU+昇騰GPU”為基礎的昇騰AI云算力底座。在訓練千億參數的盤古大模型時, 華為調用了超過2000塊的昇騰910, 進行了超過2個月的訓練。

基于昇騰AI云算力底座,華為云有“CANN+MindSpore”的AI框架。CANN作為華為針對AI場景推出的異構計算架構,向上支持多種AI框架,向下服務AI處理器與編程,而MindSpore作為全場景AI計算框架,實現端邊云全場景靈活部署,以及一站式開發平臺ModelArts,完成對計算、通信、存儲和算法多方面的優化。

通過這樣深度的AI堆棧,華為云可以為盤古提供堅實可靠的AI基礎。如果需要更大的大模型集群系統,還可以在通信方面進行深度優化。

張平安還表示,雖然無法使用業內最先進的大模型,但在AI昇騰云算力的基礎上,它的效能不僅不落后,而且還達到了目前業界主流GPU的1.1倍 。

盤古的快速迭代和更新離不開昇騰AI云的支持。 而華為云不僅向行業輸出大模型,現在也可以向行業輸出訓練大模型的AI服務了。

就像微軟與OpenAI合作,向企業客戶與開發者提供微軟Azure OpenAI服務一樣,華為云現在開始也可以向企業客戶與開發者提供昇騰AI云服務。

昇騰AI云提供單集群2000P FLOPS的算力,支持千卡訓練一個月以上不中斷,已經在貴安與烏蘭察布兩座城市的AI算力中心上線了,而下一座即將上線的是蕪湖AI算力中心。 昇騰AI云不僅支持華為MindSpore框架,同時也支持行業內主流的AI框架,如PyTorch、TensorFlow等。

在客戶層面,昇騰AI云已經取得了一些進展。張平安提到,美圖在30天內將70多個AI應用遷移到了昇騰云上,同時華為云與美圖開發人員一起對30多個算子進行了深度優化。優化后的算子與以前相比,AI算力的效能提升了30%。

大模型正在重塑各行各業,這并非是某一家企業的游戲,而是需要企業、開發者和伙伴更加緊密地協作,共同創新,共享價值和機遇。張平安提到,已經有許多客戶和伙伴已經在創新應用中使用盤古大模型,優化企業流程,提高效率,推動行業智能化升級。

4.盤古幕后:華為云的“特戰部隊”

雖然華為云官方宣布盤古大模型的立項時間是在2020年,但實際上對于大模型的探索早就開始了。

2019年12月,華為諾亞方舟實驗室的NLP團隊就開源過兩個基于BERT路線進行優化和改進的預訓練模型——哪吒和TinyBERT。但該模型后續就沒有更多下文了。

2020年3月,華為諾亞方舟實驗室計算機視覺首席科學家田奇,在內部轉崗至華為云團隊,擔任人工智能領域首席科學家。他將是后來的盤古大模型團隊的負責人。

田奇是計算機視覺領域的專家。他本科畢業于清華大學電子工程系,碩士畢業于美國德雷塞爾大學,后赴美國伊利諾伊大學香檳分校學習,師從Thomas S. Huang教授,并獲得博士學位。在2002年至2019年期間,歷任美國德克薩斯大學圣安東尼奧分校計算機系助理教授、副教授、正教授。

華為云人工智能領域首席科學家田奇

2018年,田奇做出了一個改變人生軌跡的決定,離開學術界,加入華為。對此,他曾如此解釋:“我在德克薩斯大學圣安東尼奧分校做了17年的老師,教的本科學生換了一批又一批,永遠是18歲到22歲。但我一直希望能夠將我們共同做過的東西投入到真實場景中,看能不能給社會提供作用、發揮價值。 ”

就在田奇加入華為云的這個夏天,OpenAI發布了GPT-3,模型參數從上一代GPT-2的15億陡升至1750億,在人工智能領域掀起巨大震動。當時,谷歌、Meta等國際巨頭已經圍繞預訓練大模型展開激烈競爭,而在國內,預訓練大模型的發展還極為有限。根據IDC《2022中國大模型發展白皮書》的數據,2020年之前,中國大模型的數量只有2個。

當時的華為云已經把AI作為重要賽道。在看到預訓練大模型在解決AI應用碎片化、處理大規模多任務上表現出來的強大性能之后,華為云也開始“匯聚英才”,準備進軍大模型。2021年時,該團隊包含20多名博士、30多名工程師、3名廣受關注的“華為天才少年”,還有50多名來自全國C9高校的專家。

田奇希望給盤古大模型找到差異化突破口。當時國外對NLP大模型的關注度較高,而且已經取得了較好的成績,但國內外對CV方面的大模型關注度都不高。因此,華為云盤古大模型沒有局限在NLP領域,而是從CV著手,與NLP并行,二者結合語言、圖像,搞多模態。同時,還特別看重華為一向非常重視的科學計算。

2020年11月,盤古大模型在華為云內部立項成功。為了盡快追趕上國際水平,田奇將這個團隊稱之為 “特戰隊員”,他們需要克服時間、數據、算力資源等等難題。

為此,田奇團隊采取廣泛合作的對策。例如數據方面,他們找到了氣象局等合作伙伴;資源、算力方面,又尋求與鵬城實驗室進行合作。成員本身也需要隨時調整身份做其他工作,比如CV專家可能也會去參與NLP和多模態大模型的開發,甚至他的CV知識都會靈活運用到其它領域中。在后期,這些技術專家們還需要更長遠地去考慮商業化模式方面的問題。

在奮戰6個月之后,華為云盤古大模型終于面世,并在接下來的兩年中進行了兩次大版本的迭代,直到今天盤古大模型3.0的發布。

華為云提前種下的種子,已經比多數同行更早結出了果實。

END.

參考鏈接:

標簽:

相關閱讀