中國移動發布面向超萬卡集群的新型智算技術白皮書

責任編輯:包建羽 2024.04.29 14:36 來源:通信世界全媒體

摘要

自ChatGPT發布以來,科技界掀起了一場大模型的競爭熱潮。數據成為新生產要素,算力成為新基礎能源,大模型則成為新生產工具,各行各業從“+AI”向“AI+”的轉變已勢不可擋。隨著模型參數量從千億邁向萬億,模型能力更加泛化,大模型對底層算力的訴求進一步升級,萬卡集群成為這一輪大模型基建軍備競賽的標配。

萬卡集群將有助于壓縮大模型訓練時間,實現模型能力的快速迭代,并及時對市場趨勢作出應對。然而,如何在萬卡集群中實現高效的訓練,并長期保持訓練過程的穩定性,是將大模型訓練擴展到數萬張GPU卡上所要面臨的雙重挑戰。

對此,中國移動于近日發布面向超萬卡集群的新型智算技術白皮書,白皮書提出超萬卡集群的核心設計原則,并在計算、存儲、網絡、平臺及機房配套等多個領域提出關鍵問題和解決方案。

image.png

一、背景與挑戰

自ChatGPT面世以來,大模型步入了迅猛發展期,AI技術的發展帶動產業大規模升級的同時,也帶來了對巨量算力和能源的需求。大模型對底層算力、空間、水電能源產生極大消耗,對新一代智算設施的設計要求也日益嚴苛。新型智算中心相關技術將繼續被推向新的高度。無論是通信運營商、頭部互聯網企業、大型AI研發企業還是AI初創企業,都在通過自建或使用萬卡集群加速其在人工智能領域的技術突破和產業創新。隨著萬卡集群建設的不斷深入,我們預見這一趨勢將為整個智算產業的發展帶來深遠影響。
當前,萬卡集群的建設仍處于起步階段,主要依賴英偉達GPU及配套設備實現。英偉達作為全球領先的GPU供應商,其產品在大模型訓練上有較大優勢。得益于政策加持和應用驅動,國產AI芯片在這兩年取得長足進步,但在整體性能和生態構建方面仍存在一定差距。構建一個基于國產生態體系、技術領先的萬卡集群仍在極致算力使用效率、海量數據處理、超大規?;ヂ?、高能耗高密度機房設計等方面面臨諸多挑戰。

二、設計原則和總體架構

在大算力結合大數據生成大模型的發展路徑下,萬卡集群的搭建不是簡簡單單的算力堆疊,要讓數萬張GPU卡像一臺“超級計算機”一樣高效運轉。超萬卡集群的總體設計應遵循堅持打造極致集群算力、堅持構建協同調優系統、堅持實現長穩可靠訓練、堅持提供靈活算力供給、堅持推進綠色低碳發展五大設計原則。

萬卡集群的總體架構由四層一域構成(如圖1),四層分別是機房配套、基礎設施、智算平臺和應用使能,一域是智算運營和運維域。

image.png

圖1 面向超萬卡集群的新型智算總體架構設計

三、關鍵技術

集群高能效計算技術:隨著大模型從千億參數的自然語言模型向萬億參數的多模態模型升級演進,萬卡集群亟需全面提升底層計算能力。具體而言,包括增強單芯片能力、提升超節點計算能力、基于DPU(Data Processing Unit)實現多計算能力融合以及追求極致算力能效比。這些系統性的提升將共同支持更大規模的模型訓練和推理任務,滿足迅速增長的業務需求。

高性能融合存儲技術:為了實現存儲空間高效利用、數據高效流動,并支持智算集群大規模擴展,萬卡集群應采用多協議融合和自動分級存儲技術,提升智算數據處理效率,助力萬卡集群支撐千億乃至萬億大模型訓練。

大規模機間高可靠網絡技術:萬卡集群網絡包括參數面網絡、數據面網絡、業務面網絡、管理面網絡。業務面網絡、管理面網絡一般采用傳統的TCP方式部署,參數面網絡用于計算節點之間參數交換,要求具備高帶寬無損能力。數據面網絡用于計算節點訪問存儲節點,也有高帶寬無損網絡的訴求。萬卡集群對參數面網絡要求最高,主要體現在四個方面:大規模,零丟包,高吞吐,高可靠。

高容錯高效能平臺技術:智算平臺的性能通常不能隨著算力線性增長,而是會出現耗損,因此大模型訓練還需要高效的算力調度來發揮算力平臺的效能。而這不僅需要依賴算法、框架的優化,還需要借助高效的算力調度平臺,根據算力集群的硬件特點和計算負載特性實現最優化的算力調度,來保障集群可靠性和計算效率。針對以上問題,業界多以斷點續訓、并行計算優化、智能運維等作為切入點,構建高容錯高效能智算平臺。

新型智算中心機房設計:面向高密度高能耗智能算力發展,對于部署超萬卡集群的新型智算中心來說,需要在確保智能計算設備安全、穩定、可靠地運行的前提下,具備高效制冷、彈性擴展、敏捷部署、綠色低碳等特征,并實現智能化運維管理。

四、未來展望

隨著數據規模的持續擴大、集群能力的不斷增強以及大模型應用的日益豐富,對新型智算底座的升級提出了更高的要求。面對未來,我們呼吁在超節點、跨集群訓練、軟件框架等領域實現技術突破,以強化智算基礎設施能力。與此同時持續探索存算一體、光子芯片等先進技術領域與智算中心的結合,為下一次信息變革奠定基礎。

點擊鏈接即可下載白皮書

通信世界網版權及免責聲明:
1、凡本網注明“來源:通信世界全媒體”及標有原創的所有作品,版權均屬于通信世界網。未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載我方內容的單位,也必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和本站來源。
2、凡本網注明“來源:XXX(非通信世界網)”的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。
3、如因作品內容、版權和其它問題需要同本網聯系的,請在相關作品刊發之日起30日內進行。
發表評論請先登錄
...
熱點文章
    暫無內容
r男女牲交45分钟a片,夜夜添无码试看一区二区三区,人妻老妇乱子伦精品无码专区