以網絡賦能算力 構建智算時代新型基礎設施

作者:中國電信股份有限公司研究院 雷波 責任編輯:包建羽 2024.05.06 18:06 來源:通信世界全媒體

通信世界網消息(CWW2022年11月問世的ChatGPT以其高質量的語言生成能力、強大的文本理解能力以及廣泛的應用場景,迅速成為業界關注的焦點,助力大模型成為AI(人工智能)應用新前沿。公開資料顯示,截至2023年11月,國內至少有200家大模型廠商推出各自的大模型產品,其中通用及金融垂直領域大模型落地最快。隨著AI技術的高速發展,以生成式大模型為代表的AI方案從專業技術領域滲透到生產生活的多個領域,各類智能化應用在經濟建設、科技創新、生產力提升等方面扮演著越來越重要的角色。

為獲取更好的模型性能,充分激活產業賦能效應,大模型的參數規模逐步增加到萬億級,并逐步向百萬級超長序列發展,促使大模型訓練、微調、推理各階段算力需求日益攀升,智算基礎設施的重要性和價值進一步凸顯。然而,在智算基礎設施建設過程中,尚面臨投資、能耗、技術、競爭等多重挑戰,因此,兼顧技術可行性和經濟可行性,利用網絡資源稟賦提升算力效能,構建以應用為導向、資源融合為核心的算力供給體系,是智算時代構建新型基礎設施的關鍵舉措。

永無止境的算力需求

早期如圍棋機器人AlphaGo等專用AI模型,其參數量一般僅為百萬量級。而第一代生成式預訓練模型GPT-1的參數規模就已達到1.17億,GPT-2增加到15億,GPT-3則擴展到1750億,僅模型訓練階段所需算力當量就相當于1000PFlops智算中心訓練3.6天。GPT-4的參數規模約為1.8萬億,折合算力當量為249個PD(PetaFlops-Day),需要1000PFlops智算中心運行長達249天才能完成訓練過程。

此外,在模型推理即日常運營階段,人機交互帶來的數據處理需求同樣是一筆不小的算力開支。以ChatGPT為例,OpenAI前期發表的論文《Scaling Laws for Neural Language Models》顯示,推理階段算力需求是模型參數數量與訓練數據集規模乘積的2倍,假設每輪對話產生500 tokens(約350個單詞),則每輪對話產生的算力需求為0.175PFlops,如果按照ChatGPT每日2500萬的訪問量,假設每次訪問發生10輪對話,則所需算力為4.375×107 PFlops。綜合考慮有效算力比率因素,則ChatGPT每日對話實際算力需求約為1.46×108PFlops。在迭代微調階段,即面向各類細分行業的大模型應用,算力需求與模型迭代速度存在正相關性,更快的迭代速度往往伴隨著更高的算力消耗和更大的成本支出。

因此,大模型的蓬勃發展牽引著算力尤其是智能算力需求的快速增長。據英偉達測算,未來十年算力每年將增長4倍,十年以后累計增長100萬倍。對于我國算力的發展,IDC和浪潮信息聯合發布的《2022—2023年中國人工智能計算力發展評估報告》指出,2022年中國智能算力規模達155.2EFlops,預計到2026年將達到1271.4EFlops。2021—2026年期間,預計中國智能算力規模年復合增長率達52.3%,同期通用算力規模年復合增長率為18.5%。我國算力結構的演化趨勢進一步印證了以大模型為代表的智能化應用對智能算力的高度依賴,智能算力正在成為支撐AI穩步發展的新動力、新“引擎”。

作為智能算力的主要載體,智算基礎設施的建設是大模型發展的重要環節。智算基礎設施是指以GPU等AI訓練芯片為主構建的智能計算服務器集群,包括計算、存儲、網絡等硬件基礎設施,以及多樣化的機器學習框架、算法和相關的工具軟件等。隨著AI大模型逐步進入穩健發展期,通過智算的生產、聚合、調度和釋放,為AI應用提供更大的計算規模和更快的計算速度,提升單位時間單位能耗下的運算能力和質量成為核心訴求。

智算基礎設施建設是一個長期過程,難以一蹴而就

國家信息中心聯合浪潮信息發布的報告顯示,“十四五”期間,在智算中心實現80%應用水平的情況下,城市/地區在智算中心建設投入方面的增加對創新產出的貢獻率約為14%~17%。智算中心是服務于AI應用的數據計算中心,是智算基礎設施的主要形態,如何建設支撐大模型發展需求的智算中心等智算基礎設施,不僅涉及計算芯片、互聯網絡、節能減碳、開發框架等技術問題,還需要考慮投資成本、運營維護、升級演進等商業因素,同時兼顧技術可行性和經濟可行性。

從技術角度講,構建統一的超大型智算中心是最為理想的解決方案,該方案具有高效的數據處理能力和存儲效率,可為廣泛的應用場景提供強大的“算力底座”,但在實際過程中,該方案會遇到多方面的挑戰和制約,在現階段是難以實現的。

首先是投資成本的挑戰。相比于超級計算中心(簡稱“超算中心”),雖然兩者都需要大量的資金和時間投入,包括硬件設備購置、基礎設施建設、軟硬件平臺開發等,建設周期往往從幾個月到幾年不等;但與超算中心涉及氣象預報、地震模擬等國計民生領域不同,智算中心更關注產業智能化升級和潛在的經濟效益,高額的投資成本將在一定程度上影響企業投資決策。但反過來講,如果只考慮智算基礎設施的出租業務,供應方僅需具備資本、土地和能耗指標就可以投資智能算力,入行門檻較低,因此已出現一批跨界而來的智算基礎設施建設運營方。

其次是散熱、供電等能源消耗的挑戰。大模型是名副其實的“耗電大戶”,某AI創新公司的聯合創始人在社交平臺上分享了他與微軟工程師的對話,微軟工程師指出,GPT-6的訓練集群項目之所以沒有選擇將訓練集群集中在同一個區域,是因為根據嘗試后的經驗,在同一個區域放置超過10萬塊H100 GPU會導致電網癱瘓。在AI的成本結構中,電力是繼芯片之后的又一核心成本。擁有1700多億參數的BLOOM模型,僅前期訓練階段,耗電量就達到了43.3萬千瓦·時,相當于我國400多人一年的用電量。參數規模更大的ChatGPT每天則需消耗50多萬千瓦·時的電力來處理2億用戶的請求,相當于美國家庭每天用電量的1.7萬多倍。因此,大模型的電力消耗也是智算中心規劃布局的關鍵考量因素。

再次是技術路線的挑戰。隨著AI大模型的指數級增長,尤其是英偉達在GPU方面的技術及市場優勢,讓其IB(“無限帶寬”技術)成為GPU服務器的首選網絡互聯方案?;趩我换蛏贁祻S家的硬件、軟件和服務解決方案構建的智算中心,將形成深度集成的技術體系,在后續升級、擴展、遷移時面臨靈活度缺乏等問題,影響智算基礎設施的可持續演進。

最后是行業競爭和技術“壁壘”的挑戰。一是大型科技公司、電信運營商、云服務商等紛紛布局智能計算,行業競爭日趨激烈,部分企業憑借先發優勢在產業鏈和市場上占據了極強話語權。二是我國高端智算芯片供應能力不足,即便花費大量資金也難以在短期內彌補硬件差距。

在資金、能耗、運維、技術、競爭等多重因素聯動作用下,我國智算中心總體呈現小規模、多層次的發展態勢,企業分地域、分時期、分階段建設智算中心的現象較為普遍。為滿足日益增長的智算需求,依托網絡資源稟賦,將離散的智算中心資源進行整合,實現算力的高效利用和資源共享,是當前階段突破算力供給難題的有效發力點。

利用網絡能力提升智算基礎設施效能

鑒于我國在短期內無法滿足建設超大規模集約型智算中心的現狀,可通過構建先進的網絡基礎設施,解決單點算力不足的問題,促進多地、多方、多時建設的智算中心間進行有效協同。

以機內互聯提升單點算力密度

機內互聯是通過先進的總線技術提升單算力節點內的GPU互聯規模。例如英偉達NVLink 5.0技術具備1.8TBit/s互聯帶寬,支持百塊卡級別的互聯規模。目前英偉達已發布的DGX GB200 SuperPOD系統就在NVLink 5.0基礎上,支持576個芯片的互聯互通。國內廠商如華為、寒武紀也紛紛推出了自研的互聯總線協議,通過國產化的總線技術實現機內互聯。

以提升網絡承載效率為目標的機間互聯

以提升DCN(數據中心網絡)承載效率為目標,打造滿足超大規模、超低時延、超大帶寬、超高可靠性需求的網絡設施。當前業界主流的兩種方案是IB和RoCE(基于以太網的無損傳輸),兩者分別代表了高性能網絡的兩種不同建設思路,前者雖然能提供低時延、高帶寬的網絡,但生態封閉且成本較高;后者基于標準以太網,具有更好的兼容性和成本優勢,但在性能方面還需進一步提升。目前,國內外也出現了一些新動向,例如致力于突破傳統以太網性能瓶頸的超以太網聯盟UEC,從物理層、鏈路層到軟件層改進以太網技術,以實現大規模組網效率和性能的提升。

以長距組網技術實現多節點互聯

將多個獨立的智算中心通過網絡技術互聯成一個大型集群,以實現跨數據中心的算力協同和資源共享。據報道,谷歌完成大模型Gemini Ultra的訓練任務就采用了該策略。然而,針對單點算力不足的問題,通過長距離組網實現無損互聯的商業解決方案還處于探索階段,尚無法規?;瘧谩,F有的IB和RoCE在實現長距離無損互聯方面存在限制,未來還需“產學研”各界合力突破距離瓶頸。

以任務調度實現多集群協同

智算業務偶發性和可調度性特征為任務調配提供了基礎。偶發性表現為智算任務在較長運行周期內僅短暫占用資源,其余時間無算網資源消耗;可調度性則體現在任務的算法依賴關系較為簡單,如基于相同開發框架的大模型訓練任務,易于遷移至同類資源池執行,與資源歸屬方或運營方的綁定關系較弱。因此,可通過特定的任務調度策略為用戶業務匹配不同的智算服務集群。

目前來看,面向智算場景的任務調度策略主要有三類。

一是基于控制器對接的集中管控方案。此方案將集中的控制器與各個智算資源控制器接口對接,實現對全局算力資源的統一調度與管理。

二是基于路由協議擴展的算力網關方案。此方案通過對傳統路由協議進行擴展,使其具備感知多方算力資源信息的能力,從而實現算力調度。例如中國電信研究院研發的算力網關,通過增強路由協議識別并引導數據流至最合適的算力節點,確保任務執行的高效與流暢。

三是基于DNS(域名系統)解析的算力互聯網方案。該方案利用DNS域名解析機制,借助DNS系統解析請求,將任務透明傳輸至最佳算力提供方,打破地域界限,實現智算資源的互聯互通與靈活調度。

以上述三種任務調度方案為基礎,業界已成功開發出多種智算調度升級方案,有效地應對了智算中心算力不足的問題,實現全局智算資源在更廣范圍的高效利用。

結語

智算基礎設施建設將有效促進AI產業化和產業AI化,是支撐數字經濟發展的重要“底座”?;诙唐趦葻o法解決超大規模集約型智算中心建設的難題,可依托我國網絡資源稟賦,采用機內互聯、機間互聯、多節點互聯以及多集群協同的網絡手段彌補單點算力差距,充分釋放每個智算單元的浮點運算能力,催生數字經濟新動能。

通信世界網版權及免責聲明:
1、凡本網注明“來源:通信世界全媒體”及標有原創的所有作品,版權均屬于通信世界網。未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載我方內容的單位,也必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和本站來源。
2、凡本網注明“來源:XXX(非通信世界網)”的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。
3、如因作品內容、版權和其它問題需要同本網聯系的,請在相關作品刊發之日起30日內進行。
發表評論請先登錄
...
熱點文章
    暫無內容
r男女牲交45分钟a片,夜夜添无码试看一区二区三区,人妻老妇乱子伦精品无码专区