国产毛片基地,综合网成人,va亚洲va日韩不卡在线观看,欧美一区二区三区aa,国产日韩亚洲,黄色成人影视,欧美天天爽

同花順 Logo
AIME助手
問(wèn)財(cái)助手
阿里云6篇論文入選全球網(wǎng)絡(luò)系統(tǒng)頂會(huì)NSDI 2026
2026-05-14 19:48:29
來(lái)源:阿里云
分享
文章提及標(biāo)的
消費(fèi)--
Block--
云計(jì)算--

近日,在全球頂級(jí)網(wǎng)絡(luò)系統(tǒng)會(huì)議NSDI 2026上,阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團(tuán)隊(duì)共發(fā)表6篇主會(huì)論文。論文圍繞智算訓(xùn)練問(wèn)題診斷與集合通信優(yōu)化,深入推理場(chǎng)景工作負(fù)載分析及邊緣流量接入加速,系統(tǒng)覆蓋云計(jì)算(885362)產(chǎn)業(yè)級(jí)關(guān)鍵技術(shù)難題。

以下為6篇參會(huì)論文的簡(jiǎn)要介紹

EROICA:大模型訓(xùn)練高精度在線(xiàn)性能診斷系統(tǒng)

在此次入選的文章中,《EROICA: Online Performance Troubleshooting for Large-scale Model Training》展示近兩年在阿里云大模型訓(xùn)練場(chǎng)景的基礎(chǔ)設(shè)施+訓(xùn)練框架深度融合診斷體系。幫助診斷了80個(gè)大模型訓(xùn)練場(chǎng)景下的疑難性能問(wèn)題,順利支持了多個(gè)內(nèi)部和外部客戶(hù)的大規(guī)模模型訓(xùn)練。

大模型訓(xùn)練的性能診斷在業(yè)界面臨很大挑戰(zhàn),涉及 GPU、網(wǎng)絡(luò)、代碼、配置等軟硬件全棧交互?,F(xiàn)有診斷方法都基于在線(xiàn)監(jiān)控或離線(xiàn)profile。在線(xiàn)監(jiān)控較輕,能做到實(shí)時(shí)的集群全覆蓋,但信息采樣粒度粗(通常為秒級(jí)到分鐘級(jí)),無(wú)法捕捉代碼執(zhí)行細(xì)節(jié),因而難以定位根因;離線(xiàn)profile信息精度高(微秒級(jí))、覆蓋所有函數(shù)的執(zhí)行細(xì)節(jié),但數(shù)據(jù)量和overhead都極大,難以在合理時(shí)間內(nèi)消費(fèi)(883434)。

圖|EROICA核心工作流程

EROICA結(jié)合了在線(xiàn)監(jiān)控和離線(xiàn)profile兩者的優(yōu)勢(shì),是首個(gè)基于在線(xiàn)profile的大模型性能診斷系統(tǒng)。它首先監(jiān)控任務(wù)訓(xùn)練吞吐,僅在吞吐降低時(shí)短時(shí)間開(kāi)啟在線(xiàn)profile。為了實(shí)現(xiàn)在1TB/s的profile數(shù)據(jù)中準(zhǔn)確找到性能問(wèn)題根因,EROICA從profile數(shù)據(jù)中識(shí)別出關(guān)鍵函數(shù),對(duì)所有訓(xùn)練進(jìn)程的函數(shù)“行為向量”進(jìn)行對(duì)比分析,數(shù)據(jù)量相比原始profile數(shù)據(jù)降低105倍。在對(duì)比分析中,EROICA基于“行為向量”的期望范圍和離群點(diǎn)分析得到診斷結(jié)果。

EROICA上線(xiàn)已超過(guò)1年半,覆蓋阿里云全部訓(xùn)練集群,成功診斷80個(gè)現(xiàn)有方法未能診斷的疑難性能問(wèn)題,且支持各種GPU品牌型號(hào)、訓(xùn)練框架、Host架構(gòu)。

ServeGen:揭秘真實(shí)推理場(chǎng)景工作負(fù)載

LLM 推理服務(wù)實(shí)際工作負(fù)載對(duì)于驅(qū)動(dòng)和評(píng)估推理技術(shù)及系統(tǒng)至關(guān)重要。

論文《ServeGen: Workload Characterization and Generation of Large Language Model Serving in Production》針對(duì)大模型推理場(chǎng)景對(duì)于線(xiàn)上workload進(jìn)行了深入分析,并實(shí)現(xiàn)了高保真的生產(chǎn)級(jí)workload生成。ServeGen 在實(shí)際場(chǎng)景中發(fā)現(xiàn)了可能被忽視的全新設(shè)計(jì)啟示,已在 https://github.com/alibaba/ServeGen 開(kāi)源。

圖|ServeGen核心工作流程

Come Hell or Still Water:云存儲(chǔ)長(zhǎng)尾延遲針對(duì)性?xún)?yōu)化

論文《Come Hell or Still Water: Alleviating Tail Latency in Cloud Block(XYZ) Store》分析了EBS場(chǎng)景造成I/O長(zhǎng)尾的核心原因。在過(guò)載場(chǎng)景下,極少數(shù)虛擬磁盤(pán)(VDs)產(chǎn)生的工作負(fù)載爆發(fā)(bursts)是根本原因。在欠載場(chǎng)景下,事件循環(huán)(event-loop)線(xiàn)程模型導(dǎo)致了不必要的處理延遲。通過(guò)設(shè)計(jì)雙桶限流和任務(wù)差異化調(diào)度,將過(guò)載場(chǎng)景下的長(zhǎng)尾延遲降低97%,將欠載場(chǎng)景下的長(zhǎng)尾延遲降低43%。

圖|Come Hell or Still Water核心功能模塊

HeteCCL:異構(gòu)GPU集群的高性能集合通信調(diào)度

訓(xùn)練大語(yǔ)言模型需要海量的計(jì)算與網(wǎng)絡(luò)資源,迫使開(kāi)發(fā)者使用異構(gòu)硬件,這導(dǎo)致跨節(jié)點(diǎn)的同步訓(xùn)練極具挑戰(zhàn)性。

論文《HeteCCL: Synthesizing Near-Optimal Collective Communication Schedules for Heterogeneous GPU Clusters》提出設(shè)計(jì)HeteCCL,針對(duì)異構(gòu) GPU 集群的統(tǒng)一集合通信算法生成方法,通過(guò)精細(xì)建模拓?fù)渑c帶寬并結(jié)合約束求解與搜索空間剪枝,顯著提升通信性能(多達(dá)4.4x提升)與生成速度(90%加速)。

圖|HeteCCL核心工作流程

AnyPro:全球Anycast流量調(diào)度優(yōu)化

IP Anycast 通過(guò)在多個(gè)地理分布的節(jié)點(diǎn)(PoP)廣播相同的 IP 前綴,從而顯著提升了服務(wù)的抗災(zāi)彈性、負(fù)載均衡及響應(yīng)速度。

論文《AnyPro: Preference-Preserving Anycast Optimization based on Strategic AS-Path Prepending》通過(guò)分析該過(guò)程中的路由變化,系統(tǒng)推導(dǎo)出一系列 ASPP 約束,以引導(dǎo)客戶(hù)端流量流向目標(biāo)站點(diǎn),并計(jì)算出最優(yōu)的 ASPP 配置。AnyPro將90分位RTT相對(duì)無(wú)ASPP基線(xiàn)降低37.7%,最終配置的落點(diǎn)準(zhǔn)確率提升至0.85。

圖|AnyPro核心工作流程

S2Sim:大規(guī)模分布式路由配置自動(dòng)診斷與修復(fù)

盡管在自動(dòng)驗(yàn)證分布式路由配置是否符合特定意圖(intents)方面已取得了長(zhǎng)足進(jìn)展,但診斷和修復(fù)配置錯(cuò)誤依然高度依賴(lài)人工且十分耗時(shí)。

為了填補(bǔ)這一空白,阿里云基礎(chǔ)網(wǎng)絡(luò)團(tuán)隊(duì)在論文《Diagnosing and Repairing Distributed Routing Configurations Using Selective Symbolic Simulation》提出了S2Sim,這是一個(gè)用于自動(dòng)診斷和修復(fù)路由配置的新型系統(tǒng)。S2Sim能夠準(zhǔn)確高效地診斷并修復(fù)真實(shí)的配置錯(cuò)誤:在 O(100)節(jié)點(diǎn)的真實(shí)網(wǎng)絡(luò)中耗時(shí)不超過(guò) 20 秒,在 O(1000)節(jié)點(diǎn)的合成網(wǎng)絡(luò)中耗時(shí)不超過(guò) 15 分鐘。

圖|S2Sim典型符號(hào)仿真場(chǎng)景示例

NSDI會(huì)議

NSDI是USENIX協(xié)會(huì)舉辦的國(guó)際頂級(jí)網(wǎng)絡(luò)系統(tǒng)學(xué)術(shù)會(huì)議(全稱(chēng)USENIX Symposium on Networked Systems Design and Implementation),與ACM SIGCOMM并列為計(jì)算機(jī)網(wǎng)絡(luò)和系統(tǒng)研究領(lǐng)域最高水平的兩大會(huì)議。同時(shí)也是中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)評(píng)為A類(lèi)的推薦會(huì)議,代表了最前沿的科研水平和影響力。

免責(zé)聲明:風(fēng)險(xiǎn)提示:本文內(nèi)容僅供參考,不代表同花順觀點(diǎn)。同花順各類(lèi)信息服務(wù)基于人工智能算法,如有出入請(qǐng)以證監(jiān)會(huì)指定上市公司信息披露平臺(tái)為準(zhǔn)。如有投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān),同花順對(duì)此不承擔(dān)任何責(zé)任。
homeBack返回首頁(yè)
不良信息舉報(bào)與個(gè)人信息保護(hù)咨詢(xún)專(zhuān)線(xiàn):10100571違法和不良信息涉企侵權(quán)舉報(bào)涉算法推薦舉報(bào)專(zhuān)區(qū)涉青少年不良信息舉報(bào)專(zhuān)區(qū)

浙江同花順互聯(lián)信息技術(shù)有限公司版權(quán)所有

網(wǎng)站備案號(hào):浙ICP備18032105號(hào)-4
證券投資咨詢(xún)服務(wù)提供:浙江同花順云軟件有限公司 (中國(guó)證監(jiān)會(huì)核發(fā)證書(shū)編號(hào):ZX0050)
AIME
舉報(bào)舉報(bào)
反饋反饋