在10月15日至17日舉辦的開放計算全球峰會(OCP Global Summit)上,阿里云磐久AI Infra 2.0服務器與UALink聯盟共同呈現了他們在AI基礎設施領域的最新合作成果。本屆峰會以“創新驅動未來”為主題,吸引了全球超過7000名基礎設施軟硬件技術和應用領域的專家。在OCP基金會宣布人工智能開放系統戰略計劃的背景下,峰會特別關注了AI基礎設施技術生態的建設。
阿里云服務器研發資深總監文芳志與UALink聯盟主席Kurtis Bowman共同發表了題為《UALink:引領AI加速器革命》的演講,深入探討了AI服務器Scale UP互連技術的未來趨勢,UALink標準的發展規劃,以及UALink聯盟與ALink System產業生態的合作前景。
UALink協議,由行業領先的AI芯片、服務器和CSP廠商聯合發起,預計將成為改變AI服務器Scale UP互連技術生態的新行業標準。與專注于Scale out擴展能力的超級以太網聯盟(UEC)協議相比,UALink協議以其高性能內存語義訪問、顯存共享、支持Switch組網模式以及超高帶寬和超低時延等優勢,正在快速構建一個開放的AI服務器Scale UP互連技術生態。UALink聯盟計劃于10月底正式成立,并在年底發布第一版UALink spec。
作為AI服務器Scale UP互連開放標準的有力競爭者,UALink標準在業界尤其是中國市場的落地實施面臨挑戰,ALink System(ALS)產業生態應運而生。ALS提供了具有競爭力的統一標準互連系統,包括ALS-D數據面和ALS-M管控面,為AI訓練和推理場景提供了強大的支持。
ALS-D支持UALink國際標準,形成了具有競爭力的數據面方案。當前AI應用在Scale Up網絡上的特點包括算法并行切分、大顯存共享和GPU多核內存語義編程等。ALS-D數據面互連采用UALink協議,不僅支持高性能內存語義訪問和顯存共享,還具備超高帶寬和超低時延,同時增加了網內計算等特性。
ALS-M為不同芯片方案提供了標準化接入方案,支持開放生態和廠商專有互連協議的統一軟件接口。此外,ALS-M還為云計算等集群管理場景提供了靈活和彈性的配置能力。
遵循ALink System規范,阿里云設計了面向下一代超大規模AI集群的磐久AI Infra 2.0服務器,體現了開放生態、高能效、高性能和高可用的設計理念。AI Infra 2.0服務器定義了AI計算節點和Scale Up/Scale Out互連系統,支持業界主流AI方案,推動了AI領域的“一云多芯”發展。
互連系統ALink System全面兼容UALink生態,與行業伙伴共同構建超高性能、大規模的Scale UP集群互連能力,一級互連支持64-80個節點,二級互連可達2000個以上節點,提供了PB級共享顯存和TB級互連帶寬。
AI Infra 2.0服務器集成了阿里自研的CIPU 3.0芯片,支持高帶寬大規模AI服務器的Scale Out網絡擴展,同時滿足云網絡的彈性和安全需求。
在硬件工程方面,AI Infra 2.0服務器單機柜支持最大80個AI計算節點,密度業界領先;采用400V PSU,單體供電效率可達98%,整體供電效率提高2%。散熱設計上,機柜級液冷方案根據負載動態調整CDU冷卻能力,降低能耗,單柜冷卻系統節能30%。運維管理上,全新的CableCartridge后維護設計支持全盲插,零理線易運維、零誤操作,維護效率提升50%。
在可靠性方面,AI Infra 2.0服務器支持彈性節點、智能路由、高可靠供電、分布式CDU等技術,能夠實時監控和自愈各種硬件故障,將硬件故障域縮減到節點級。
在ALink System產業生態建設上,阿里云堅持開放合作策略,推動互連技術領域的發展。自ALink System產業生態在開放數據中心大會上發布以來,已有20多家AI芯片、互連芯片、服務器整機硬件和IP設計廠商加入,成員單位就相關協議標準制定和實施路徑進行了深入交流。
阿里云不僅是UALink的積極支持者和ALink System產業生態的牽頭者,還是OCP、CXL、UCIe和UEC等多個互連技術行業組織的創始成員或技術委員會成員,通過實際行動支持開放互連技術標準的制定和實施。
編輯:張子凡