IT之家 5 月 20 日消息,據(jù)通義實驗室消息,通義千問團(tuán)隊發(fā)布了 Qwen3.5-LiveTranslate-Flash 實時語音翻譯模型,該模型在語種覆蓋、延遲控制和音色保留等方面實現(xiàn)顯著突破,旨在解決跨境直播、跨國會議等場景中的實時同傳痛點。
IT之家附官方詳細(xì)介紹如下:
跨境直播卡頓、跨國會議延遲、AI 配音“機器感”太重…… 實時同傳一直卡在“延遲、語種、音色”三大痛點。
Qwen3.5-LiveTranslate-Flash 給出了解決方案:支持 60 種語言的音頻輸入和文字輸出,29 種語言的音頻輸出,端到端字均延遲低至 2.8 秒,還能保留說話人的原聲特征。
核心亮點速覽
Qwen3.5-LiveTranslate
輸入音頻和輸出文本語種從 18 種提升至 60 種,輸出音頻從 10 種提升至 29 種;
語音同傳字均延遲降低至 2.8 秒;
支持實時音色克隆,翻譯后仍保留說話人原聲特征;
內(nèi)置熱詞能力,專有名詞和行業(yè)術(shù)語翻譯更精準(zhǔn)。
Qwen3.5-LiveTranslate 能聽懂和翻譯 60 種語言,其中 29 種可以實現(xiàn)語音輸出。輸入音頻和輸出文本語種從 18 個大幅提升至 60 個,輸出音頻語向從 10 個提升至 29 個,覆蓋更多國家與區(qū)域的語言互譯組合,滿足跨境會議、直播出海(885840)、在線課堂、商務(wù)談判等多語同傳需求。
引入全新 Readable Unit(可讀單元)實時翻譯技術(shù),在保證譯文可讀性與語義連貫的前提下,實現(xiàn)更激進(jìn)的流式輸出。端到端字均延遲降低到 2.8 秒,適用于直播、連麥、發(fā)布會等對時延極敏感的場景。
支持 Real-time Voice Cloning(動態(tài)跨語言音色克?。?。在同傳過程中自動捕捉并復(fù)刻說話人音色特征,譯文在不同語言間依舊保持“同一個人”的聲音質(zhì)感與情緒表現(xiàn)力。主播、嘉賓、主持人的身份一致性大幅提升,沉浸感拉滿。
內(nèi)置動態(tài)熱詞(Hotword)引擎,最高支持 1000 個自定義詞條。對人名、地名、品牌、產(chǎn)品型號、行業(yè)術(shù)語進(jìn)行優(yōu)先識別與優(yōu)先翻譯。支持場景動態(tài)配置與實時更新,顯著降低技術(shù)發(fā)布會、醫(yī)療 / 法律 / 金融會議、企業(yè)內(nèi)訓(xùn)中“術(shù)語翻錯、名字聽錯”的風(fēng)險。
我們將模型放入高頻實戰(zhàn)環(huán)境,復(fù)雜場景依舊穩(wěn)定發(fā)揮:
跨國會議 & 出境旅游
多語混說 / 復(fù)雜口音:會議室多語種交替發(fā)言、帶口音表達(dá),模型精準(zhǔn)切分并同步譯。
智能硬件落地:搭配千問 AI 眼鏡在泰國點餐實測,語音交互 + 實時同傳無縫銜接,溝通零障礙。
直播帶貨 & 影視出海
數(shù)字與規(guī)格精準(zhǔn)翻譯:直播連麥中,商品參數(shù)、價格、折扣數(shù)字翻譯準(zhǔn)確率極高,帶貨宣發(fā)不斷檔。
古文 / 文化內(nèi)容同傳:準(zhǔn)確理解并翻譯古典文言文,語義連貫且保留文化韻味,字幕與配音同步流暢。
視覺消歧輔助
結(jié)合多模態(tài)理解能力,在語境模糊時自動引入視覺信息輔助判斷,大幅降低“一詞多義”導(dǎo)致的翻譯歧義。
在公開多語言語音翻譯基準(zhǔn)(FLEURS、CoVoST2)上,Qwen3.5-LiveTranslate-Flash 翻譯準(zhǔn)確率優(yōu)于當(dāng)前主流語音大模型,顯著優(yōu)于前代 Qwen3-LiveTranslate-Flash,在語言覆蓋和翻譯質(zhì)量上均實現(xiàn)突破。
憑借可讀單元流式策略,Qwen3.5-LiveTranslate-Flash 相比 Qwen3-LiveTranslate-Flash 將首字延遲降低 3.45 秒、字均延遲降低 1.88 秒,最終實現(xiàn)端到端字均延遲 2.8 秒,翻譯質(zhì)量幾乎無損。
相比上一代,Qwen3.5-LiveTranslate-Flash 在核心參數(shù)與功能上實現(xiàn)了全面進(jìn)階,詳細(xì)對比如下:
Qwen3.5-LiveTranslate 是基于 Qwen3.5-Omni Thinker-Talker 架構(gòu)打造的翻譯大模型。面向同聲傳譯場景,我們采用 chunk-wise 流式輸入機制,引入可讀單元來控制語音合成粒度,在保證同傳體感的同時有效降低時延。此外,借助動態(tài)跨語言音色克隆技術(shù),模型在翻譯時能夠?qū)崟r識別并模仿說話人的原始音色。
從“能翻譯”到“實時同傳”,Qwen3.5-LiveTranslate-Flash 用更低延遲、更多語種、更自然音色,為跨境協(xié)作、內(nèi)容出海(885840)、智能硬件提供新一代語音基礎(chǔ)設(shè)施。
