国产毛片基地,综合网成人,va亚洲va日韩不卡在线观看,欧美一区二区三区aa,国产日韩亚洲,黄色成人影视,欧美天天爽

<pre id="ftaaa"></pre>

阿里云6篇論文入選全球網(wǎng)絡(luò)系統(tǒng)頂會(huì)NSDI 2026

2026-05-14 19:48:29

來(lái)源：阿里云

分享

文章提及標(biāo)的

消費(fèi)--

Block--

云計(jì)算--

近日，在全球頂級(jí)網(wǎng)絡(luò)系統(tǒng)會(huì)議NSDI 2026上，阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團(tuán)隊(duì)共發(fā)表6篇主會(huì)論文。論文圍繞智算訓(xùn)練問(wèn)題診斷與集合通信優(yōu)化，深入推理場(chǎng)景工作負(fù)載分析及邊緣流量接入加速，系統(tǒng)覆蓋云計(jì)算（885362）產(chǎn)業(yè)級(jí)關(guān)鍵技術(shù)難題。

以下為6篇參會(huì)論文的簡(jiǎn)要介紹

EROICA：大模型訓(xùn)練高精度在線(xiàn)性能診斷系統(tǒng)

在此次入選的文章中，《EROICA: Online Performance Troubleshooting for Large-scale Model Training》展示近兩年在阿里云大模型訓(xùn)練場(chǎng)景的基礎(chǔ)設(shè)施+訓(xùn)練框架深度融合診斷體系。幫助診斷了80個(gè)大模型訓(xùn)練場(chǎng)景下的疑難性能問(wèn)題，順利支持了多個(gè)內(nèi)部和外部客戶(hù)的大規(guī)模模型訓(xùn)練。

大模型訓(xùn)練的性能診斷在業(yè)界面臨很大挑戰(zhàn)，涉及 GPU、網(wǎng)絡(luò)、代碼、配置等軟硬件全棧交互?，F(xiàn)有診斷方法都基于在線(xiàn)監(jiān)控或離線(xiàn)profile。在線(xiàn)監(jiān)控較輕，能做到實(shí)時(shí)的集群全覆蓋，但信息采樣粒度粗（通常為秒級(jí)到分鐘級(jí)），無(wú)法捕捉代碼執(zhí)行細(xì)節(jié)，因而難以定位根因；離線(xiàn)profile信息精度高（微秒級(jí)）、覆蓋所有函數(shù)的執(zhí)行細(xì)節(jié)，但數(shù)據(jù)量和overhead都極大，難以在合理時(shí)間內(nèi)消費(fèi)（883434）。

圖｜EROICA核心工作流程

EROICA結(jié)合了在線(xiàn)監(jiān)控和離線(xiàn)profile兩者的優(yōu)勢(shì)，是首個(gè)基于在線(xiàn)profile的大模型性能診斷系統(tǒng)。它首先監(jiān)控任務(wù)訓(xùn)練吞吐，僅在吞吐降低時(shí)短時(shí)間開(kāi)啟在線(xiàn)profile。為了實(shí)現(xiàn)在1TB/s的profile數(shù)據(jù)中準(zhǔn)確找到性能問(wèn)題根因，EROICA從profile數(shù)據(jù)中識(shí)別出關(guān)鍵函數(shù)，對(duì)所有訓(xùn)練進(jìn)程的函數(shù)“行為向量”進(jìn)行對(duì)比分析，數(shù)據(jù)量相比原始profile數(shù)據(jù)降低105倍。在對(duì)比分析中，EROICA基于“行為向量”的期望范圍和離群點(diǎn)分析得到診斷結(jié)果。

EROICA上線(xiàn)已超過(guò)1年半，覆蓋阿里云全部訓(xùn)練集群，成功診斷80個(gè)現(xiàn)有方法未能診斷的疑難性能問(wèn)題，且支持各種GPU品牌型號(hào)、訓(xùn)練框架、Host架構(gòu)。

ServeGen：揭秘真實(shí)推理場(chǎng)景工作負(fù)載

LLM 推理服務(wù)實(shí)際工作負(fù)載對(duì)于驅(qū)動(dòng)和評(píng)估推理技術(shù)及系統(tǒng)至關(guān)重要。

論文《ServeGen: Workload Characterization and Generation of Large Language Model Serving in Production》針對(duì)大模型推理場(chǎng)景對(duì)于線(xiàn)上workload進(jìn)行了深入分析，并實(shí)現(xiàn)了高保真的生產(chǎn)級(jí)workload生成。ServeGen 在實(shí)際場(chǎng)景中發(fā)現(xiàn)了可能被忽視的全新設(shè)計(jì)啟示，已在 https://github.com/alibaba/ServeGen 開(kāi)源。

圖｜ServeGen核心工作流程

Come Hell or Still Water：云存儲(chǔ)長(zhǎng)尾延遲針對(duì)性?xún)?yōu)化

論文《Come Hell or Still Water: Alleviating Tail Latency in Cloud Block（XYZ） Store》分析了EBS場(chǎng)景造成I/O長(zhǎng)尾的核心原因。在過(guò)載場(chǎng)景下，極少數(shù)虛擬磁盤(pán)（VDs）產(chǎn)生的工作負(fù)載爆發(fā)（bursts）是根本原因。在欠載場(chǎng)景下，事件循環(huán)（event-loop）線(xiàn)程模型導(dǎo)致了不必要的處理延遲。通過(guò)設(shè)計(jì)雙桶限流和任務(wù)差異化調(diào)度，將過(guò)載場(chǎng)景下的長(zhǎng)尾延遲降低97%，將欠載場(chǎng)景下的長(zhǎng)尾延遲降低43%。

圖｜Come Hell or Still Water核心功能模塊

HeteCCL：異構(gòu)GPU集群的高性能集合通信調(diào)度

訓(xùn)練大語(yǔ)言模型需要海量的計(jì)算與網(wǎng)絡(luò)資源，迫使開(kāi)發(fā)者使用異構(gòu)硬件，這導(dǎo)致跨節(jié)點(diǎn)的同步訓(xùn)練極具挑戰(zhàn)性。

論文《HeteCCL: Synthesizing Near-Optimal Collective Communication Schedules for Heterogeneous GPU Clusters》提出設(shè)計(jì)HeteCCL，針對(duì)異構(gòu) GPU 集群的統(tǒng)一集合通信算法生成方法，通過(guò)精細(xì)建模拓?fù)渑c帶寬并結(jié)合約束求解與搜索空間剪枝，顯著提升通信性能(多達(dá)4.4x提升)與生成速度(90%加速)。

圖｜HeteCCL核心工作流程

AnyPro：全球Anycast流量調(diào)度優(yōu)化

IP Anycast 通過(guò)在多個(gè)地理分布的節(jié)點(diǎn)（PoP）廣播相同的 IP 前綴，從而顯著提升了服務(wù)的抗災(zāi)彈性、負(fù)載均衡及響應(yīng)速度。

論文《AnyPro: Preference-Preserving Anycast Optimization based on Strategic AS-Path Prepending》通過(guò)分析該過(guò)程中的路由變化，系統(tǒng)推導(dǎo)出一系列 ASPP 約束，以引導(dǎo)客戶(hù)端流量流向目標(biāo)站點(diǎn)，并計(jì)算出最優(yōu)的 ASPP 配置。AnyPro將90分位RTT相對(duì)無(wú)ASPP基線(xiàn)降低37.7%，最終配置的落點(diǎn)準(zhǔn)確率提升至0.85。

圖｜AnyPro核心工作流程

S2Sim：大規(guī)模分布式路由配置自動(dòng)診斷與修復(fù)

盡管在自動(dòng)驗(yàn)證分布式路由配置是否符合特定意圖（intents）方面已取得了長(zhǎng)足進(jìn)展，但診斷和修復(fù)配置錯(cuò)誤依然高度依賴(lài)人工且十分耗時(shí)。

為了填補(bǔ)這一空白，阿里云基礎(chǔ)網(wǎng)絡(luò)團(tuán)隊(duì)在論文《Diagnosing and Repairing Distributed Routing Configurations Using Selective Symbolic Simulation》提出了S2Sim，這是一個(gè)用于自動(dòng)診斷和修復(fù)路由配置的新型系統(tǒng)。S2Sim能夠準(zhǔn)確高效地診斷并修復(fù)真實(shí)的配置錯(cuò)誤：在 O(100)節(jié)點(diǎn)的真實(shí)網(wǎng)絡(luò)中耗時(shí)不超過(guò) 20 秒，在 O(1000)節(jié)點(diǎn)的合成網(wǎng)絡(luò)中耗時(shí)不超過(guò) 15 分鐘。

圖｜S2Sim典型符號(hào)仿真場(chǎng)景示例

NSDI會(huì)議

NSDI是USENIX協(xié)會(huì)舉辦的國(guó)際頂級(jí)網(wǎng)絡(luò)系統(tǒng)學(xué)術(shù)會(huì)議（全稱(chēng)USENIX Symposium on Networked Systems Design and Implementation），與ACM SIGCOMM并列為計(jì)算機(jī)網(wǎng)絡(luò)和系統(tǒng)研究領(lǐng)域最高水平的兩大會(huì)議。同時(shí)也是中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）評(píng)為A類(lèi)的推薦會(huì)議，代表了最前沿的科研水平和影響力。

免責(zé)聲明：風(fēng)險(xiǎn)提示：本文內(nèi)容僅供參考，不代表同花順觀點(diǎn)。同花順各類(lèi)信息服務(wù)基于人工智能算法，如有出入請(qǐng)以證監(jiān)會(huì)指定上市公司信息披露平臺(tái)為準(zhǔn)。如有投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)，同花順對(duì)此不承擔(dān)任何責(zé)任。

返回首頁(yè)

投資者關(guān)系

關(guān)于同花順

運(yùn)營(yíng)許可

聯(lián)系我們

用戶(hù)體驗(yàn)計(jì)劃

不良信息舉報(bào)與個(gè)人信息保護(hù)咨詢(xún)專(zhuān)線(xiàn)：10100571違法和不良信息涉企侵權(quán)舉報(bào)涉算法推薦舉報(bào)專(zhuān)區(qū)涉青少年不良信息舉報(bào)專(zhuān)區(qū)

浙江同花順互聯(lián)信息技術(shù)有限公司版權(quán)所有

網(wǎng)站備案號(hào)：浙ICP備18032105號(hào)-4

證券投資咨詢(xún)服務(wù)提供：浙江同花順云軟件有限公司（中國(guó)證監(jiān)會(huì)核發(fā)證書(shū)編號(hào)：ZX0050）

不良信息舉報(bào)

浙江市場(chǎng)監(jiān)管

舉報(bào)

<dfn id="cfwuq"></dfn>