近日,在全球頂級(jí)網(wǎng)絡(luò)系統(tǒng)會(huì)議NSDI 2026上,阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團(tuán)隊(duì)共發(fā)表6篇主會(huì)論文。論文圍繞智算訓(xùn)練問(wèn)題診斷與集合通信優(yōu)化,深入推理場(chǎng)景工作負(fù)載分析及邊緣流量接入加速,系統(tǒng)覆蓋云計(jì)算(885362)產(chǎn)業(yè)級(jí)關(guān)鍵技術(shù)難題。
以下為6篇參會(huì)論文的簡(jiǎn)要介紹
EROICA:大模型訓(xùn)練高精度在線(xiàn)性能診斷系統(tǒng)
在此次入選的文章中,《EROICA: Online Performance Troubleshooting for Large-scale Model Training》展示近兩年在阿里云大模型訓(xùn)練場(chǎng)景的基礎(chǔ)設(shè)施+訓(xùn)練框架深度融合診斷體系。幫助診斷了80個(gè)大模型訓(xùn)練場(chǎng)景下的疑難性能問(wèn)題,順利支持了多個(gè)內(nèi)部和外部客戶(hù)的大規(guī)模模型訓(xùn)練。
大模型訓(xùn)練的性能診斷在業(yè)界面臨很大挑戰(zhàn),涉及 GPU、網(wǎng)絡(luò)、代碼、配置等軟硬件全棧交互?,F(xiàn)有診斷方法都基于在線(xiàn)監(jiān)控或離線(xiàn)profile。在線(xiàn)監(jiān)控較輕,能做到實(shí)時(shí)的集群全覆蓋,但信息采樣粒度粗(通常為秒級(jí)到分鐘級(jí)),無(wú)法捕捉代碼執(zhí)行細(xì)節(jié),因而難以定位根因;離線(xiàn)profile信息精度高(微秒級(jí))、覆蓋所有函數(shù)的執(zhí)行細(xì)節(jié),但數(shù)據(jù)量和overhead都極大,難以在合理時(shí)間內(nèi)消費(fèi)(883434)。
圖|EROICA核心工作流程
EROICA結(jié)合了在線(xiàn)監(jiān)控和離線(xiàn)profile兩者的優(yōu)勢(shì),是首個(gè)基于在線(xiàn)profile的大模型性能診斷系統(tǒng)。它首先監(jiān)控任務(wù)訓(xùn)練吞吐,僅在吞吐降低時(shí)短時(shí)間開(kāi)啟在線(xiàn)profile。為了實(shí)現(xiàn)在1TB/s的profile數(shù)據(jù)中準(zhǔn)確找到性能問(wèn)題根因,EROICA從profile數(shù)據(jù)中識(shí)別出關(guān)鍵函數(shù),對(duì)所有訓(xùn)練進(jìn)程的函數(shù)“行為向量”進(jìn)行對(duì)比分析,數(shù)據(jù)量相比原始profile數(shù)據(jù)降低105倍。在對(duì)比分析中,EROICA基于“行為向量”的期望范圍和離群點(diǎn)分析得到診斷結(jié)果。
EROICA上線(xiàn)已超過(guò)1年半,覆蓋阿里云全部訓(xùn)練集群,成功診斷80個(gè)現(xiàn)有方法未能診斷的疑難性能問(wèn)題,且支持各種GPU品牌型號(hào)、訓(xùn)練框架、Host架構(gòu)。
ServeGen:揭秘真實(shí)推理場(chǎng)景工作負(fù)載
LLM 推理服務(wù)實(shí)際工作負(fù)載對(duì)于驅(qū)動(dòng)和評(píng)估推理技術(shù)及系統(tǒng)至關(guān)重要。
論文《ServeGen: Workload Characterization and Generation of Large Language Model Serving in Production》針對(duì)大模型推理場(chǎng)景對(duì)于線(xiàn)上workload進(jìn)行了深入分析,并實(shí)現(xiàn)了高保真的生產(chǎn)級(jí)workload生成。ServeGen 在實(shí)際場(chǎng)景中發(fā)現(xiàn)了可能被忽視的全新設(shè)計(jì)啟示,已在 https://github.com/alibaba/ServeGen 開(kāi)源。
圖|ServeGen核心工作流程
Come Hell or Still Water:云存儲(chǔ)長(zhǎng)尾延遲針對(duì)性?xún)?yōu)化
論文《Come Hell or Still Water: Alleviating Tail Latency in Cloud Block(XYZ) Store》分析了EBS場(chǎng)景造成I/O長(zhǎng)尾的核心原因。在過(guò)載場(chǎng)景下,極少數(shù)虛擬磁盤(pán)(VDs)產(chǎn)生的工作負(fù)載爆發(fā)(bursts)是根本原因。在欠載場(chǎng)景下,事件循環(huán)(event-loop)線(xiàn)程模型導(dǎo)致了不必要的處理延遲。通過(guò)設(shè)計(jì)雙桶限流和任務(wù)差異化調(diào)度,將過(guò)載場(chǎng)景下的長(zhǎng)尾延遲降低97%,將欠載場(chǎng)景下的長(zhǎng)尾延遲降低43%。
圖|Come Hell or Still Water核心功能模塊
HeteCCL:異構(gòu)GPU集群的高性能集合通信調(diào)度
訓(xùn)練大語(yǔ)言模型需要海量的計(jì)算與網(wǎng)絡(luò)資源,迫使開(kāi)發(fā)者使用異構(gòu)硬件,這導(dǎo)致跨節(jié)點(diǎn)的同步訓(xùn)練極具挑戰(zhàn)性。
論文《HeteCCL: Synthesizing Near-Optimal Collective Communication Schedules for Heterogeneous GPU Clusters》提出設(shè)計(jì)HeteCCL,針對(duì)異構(gòu) GPU 集群的統(tǒng)一集合通信算法生成方法,通過(guò)精細(xì)建模拓?fù)渑c帶寬并結(jié)合約束求解與搜索空間剪枝,顯著提升通信性能(多達(dá)4.4x提升)與生成速度(90%加速)。
圖|HeteCCL核心工作流程
AnyPro:全球Anycast流量調(diào)度優(yōu)化
IP Anycast 通過(guò)在多個(gè)地理分布的節(jié)點(diǎn)(PoP)廣播相同的 IP 前綴,從而顯著提升了服務(wù)的抗災(zāi)彈性、負(fù)載均衡及響應(yīng)速度。
論文《AnyPro: Preference-Preserving Anycast Optimization based on Strategic AS-Path Prepending》通過(guò)分析該過(guò)程中的路由變化,系統(tǒng)推導(dǎo)出一系列 ASPP 約束,以引導(dǎo)客戶(hù)端流量流向目標(biāo)站點(diǎn),并計(jì)算出最優(yōu)的 ASPP 配置。AnyPro將90分位RTT相對(duì)無(wú)ASPP基線(xiàn)降低37.7%,最終配置的落點(diǎn)準(zhǔn)確率提升至0.85。
圖|AnyPro核心工作流程
S2Sim:大規(guī)模分布式路由配置自動(dòng)診斷與修復(fù)
盡管在自動(dòng)驗(yàn)證分布式路由配置是否符合特定意圖(intents)方面已取得了長(zhǎng)足進(jìn)展,但診斷和修復(fù)配置錯(cuò)誤依然高度依賴(lài)人工且十分耗時(shí)。
為了填補(bǔ)這一空白,阿里云基礎(chǔ)網(wǎng)絡(luò)團(tuán)隊(duì)在論文《Diagnosing and Repairing Distributed Routing Configurations Using Selective Symbolic Simulation》提出了S2Sim,這是一個(gè)用于自動(dòng)診斷和修復(fù)路由配置的新型系統(tǒng)。S2Sim能夠準(zhǔn)確高效地診斷并修復(fù)真實(shí)的配置錯(cuò)誤:在 O(100)節(jié)點(diǎn)的真實(shí)網(wǎng)絡(luò)中耗時(shí)不超過(guò) 20 秒,在 O(1000)節(jié)點(diǎn)的合成網(wǎng)絡(luò)中耗時(shí)不超過(guò) 15 分鐘。
圖|S2Sim典型符號(hào)仿真場(chǎng)景示例
NSDI會(huì)議
NSDI是USENIX協(xié)會(huì)舉辦的國(guó)際頂級(jí)網(wǎng)絡(luò)系統(tǒng)學(xué)術(shù)會(huì)議(全稱(chēng)USENIX Symposium on Networked Systems Design and Implementation),與ACM SIGCOMM并列為計(jì)算機(jī)網(wǎng)絡(luò)和系統(tǒng)研究領(lǐng)域最高水平的兩大會(huì)議。同時(shí)也是中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)評(píng)為A類(lèi)的推薦會(huì)議,代表了最前沿的科研水平和影響力。
