5月21日,記者獲悉,智譜(HK2513)聯(lián)合馭馴網(wǎng)絡(luò)與清華大學(xué),在GLM-5.1線上生產(chǎn)集群中完成了新一代網(wǎng)絡(luò)架構(gòu)ZCube的規(guī)?;涞?。
在線上GLM-5.1coding場(chǎng)景中,在保持GPU算力、軟件棧與應(yīng)用不變的前提下,ZCube節(jié)省了33%交換機(jī)與光模塊成本,同時(shí)將GPU平均推理吞吐提升了15%,并將TTFT P99降低了40.6%。
這意味著,同樣的硬件投入,智譜(HK2513)的GLM大模型現(xiàn)在每秒能多響應(yīng)15%的API請(qǐng)求。對(duì)于大模型API平臺(tái)而言,這直接對(duì)應(yīng)更高的并發(fā)上限以及在流量峰值下更穩(wěn)定的用戶體驗(yàn)。(澎湃新聞百家號(hào))
