21世紀(jì)經(jīng)濟(jì)報道記者 何煦陽
4月1日,《21汽車·一見Auto》與小米汽車(886064)智能駕駛(885736)基座大模型負(fù)責(zé)人陳龍進(jìn)行了一次面對面訪談。
“小時候,我們學(xué)說話和認(rèn)字。隨著慢慢成長,我們會經(jīng)常摸、拿、抓、取一些東西。等到我們具備了強(qiáng)大的語言能力和對空間的理解和推理能力,差不多十八歲以后,我們再去學(xué)習(xí)。這樣才能將我們習(xí)得的一切融入駕駛之中,不僅開得更快,還開得更好。XLA 大模型也一樣。”在訪談時,陳龍對我們說。
3月份,小米剛發(fā)布了新一代SU7,并宣布輔助駕駛升級到 XLA 認(rèn)知大模型架構(gòu)。小米集團(tuán)董事長雷軍在新一代SU7發(fā)布會上稱,之所以命名為 “XLA” 而非業(yè)內(nèi)俗稱的 “VLA(Vision-Language-Action Model,視覺 - 語言 - 動作)”大模型,是因?yàn)槟P途邆洹岸嗄B(tài)的認(rèn)知輸入”:小米還融入了聲音、機(jī)器人數(shù)據(jù)等模態(tài)。
陳龍就是開發(fā) XLA 認(rèn)知大模型的負(fù)責(zé)人。童年時,他喜歡美劇《霹靂游俠》里的智能跑車 KITT,這臺跑車有鮮明的自我意識,通過自動駕駛多次幫助主角化險為夷。長大后,他曾在英國劍橋大學(xué)孵化的自動駕駛公司 Wayve 任職,是將 VLA 模型引入輔助駕駛領(lǐng)域的先行者,致力于令大模型的駕駛決策過程更加透明。一年之前,他加入小米,擔(dān)任輔助駕駛 VLA 技術(shù)負(fù)責(zé)人。
彼時的小米輔助駕駛架構(gòu)還處于 “端到端(End-to-End,一種深度學(xué)習(xí)模型范式,直接從原始輸入映射到最終輸出) + VLM(視覺 - 語言模型,Vision-Language Model) ” 階段。陳龍將這一階段的核心,提煉為“數(shù)據(jù)驅(qū)動”。端到端拆掉了傳統(tǒng)輔助駕駛的“感知”“規(guī)劃”“決策”模塊,通過直接灌入大量駕駛場景數(shù)據(jù),直接讓模型學(xué)習(xí)并輸出駕駛行為。2024年,國內(nèi)車企及供應(yīng)商集體切換到端到端架構(gòu),輔助駕駛的整體水平均得到了質(zhì)的提升。
但進(jìn)入2025年,端到端架構(gòu)的缺陷開始顯現(xiàn)。通俗來說,大模型雖然靠“死記硬背”海量的駕駛數(shù)據(jù)提升了自己的駕駛水平,但現(xiàn)實(shí)世界總會出現(xiàn)更多元、更復(fù)雜的駕駛場景。大模型需要真正理解和認(rèn)知人類社會和現(xiàn)實(shí)世界,才不會在現(xiàn)實(shí)世界中遇到新的場景時“傻眼”,像老司機(jī)一樣思考,做到“舉一反三”。——陳龍將新階段的核心,提煉為“認(rèn)知驅(qū)動”。
先讓大模型長到十八歲
可是如何才能讓大模型學(xué)會“認(rèn)知”?
端到端時代,大模型被灌入了海量的駕駛數(shù)據(jù),但這些數(shù)據(jù)還不夠。陳龍需要打造一個更龐大的具身基座大模型,這個模型中不僅需要駕駛數(shù)據(jù),還需要有機(jī)器人數(shù)據(jù)、多模態(tài)數(shù)據(jù)(圖片、文字、視頻)。
加入機(jī)器人數(shù)據(jù),是為了讓模型如同人類從孩童開始一般“與各種物體進(jìn)行交互”,更理解“物體與物體之間的邏輯關(guān)系”。而加入海量的多模態(tài)數(shù)據(jù),是要讓模型如同人類從孩童開始一般識字,慢慢發(fā)展視覺和語言能力,具備對人類社會和現(xiàn)實(shí)世界的通識。整個過程,相當(dāng)于“先讓大模型長到十八歲”。
2025年11月21日,小米正式發(fā)布并開源小米具身大模型 “Xiaomi MiMo-Embodied ”。為了將小米的具身基座大模型撫養(yǎng)成人,陳龍團(tuán)隊花了八個月的時間,但趟過的彎路卻遠(yuǎn)不只八次。
在這個過程中,曾在阿里巴巴(BABA)達(dá)摩院、幻方量化及DeepSeek(深度求索)任職,如今擔(dān)任小米集團(tuán) AI 實(shí)驗(yàn)室 MiMo 大模型團(tuán)隊負(fù)責(zé)人的羅福莉,給予了他們很多幫助?!傲_福莉和他們團(tuán)隊,不僅給我們提供了一個很強(qiáng)的基座模型Xiaomi MiMo-VL系列,還與我們共享了一套訓(xùn)練框架。”陳龍告訴我們。
2025年5月30日,小米發(fā)布并開源了多模態(tài)大模型 “Xiaomi MiMo-VL”。陳龍團(tuán)隊采用了 Xiaomi MiMo-VL 中的 “視覺編碼器”,能將高分辨率的畫面編碼成機(jī)器能理解的視覺 Token,并直接 “繼承了其成熟的視覺-語言對齊機(jī)制和強(qiáng)大的推理能力” 。這意味著陳龍團(tuán)隊不用從零開始訓(xùn)練自己的基座模型,大大縮短了Xiaomi MiMo-Embodied “成年”的時間。
小米具身大模型MiMo-Embodied技術(shù)報告節(jié)選
陳龍告訴我們,Xiaomi MiMo-Embodied 的 AI Infra(人工智能(885728)基礎(chǔ)設(shè)施,常簡稱為 “AI基建”), 很大一部分也是復(fù)用羅福莉團(tuán)隊的。
不過,將大模型混入如此多元的數(shù)據(jù),對陳龍團(tuán)隊來講也是第一次,所以他們搞錯了很多次灌輸數(shù)據(jù)的順序。
“因?yàn)橹耙矝]人探索過,所以我們錯了很多次。一開始我們就想直接將數(shù)據(jù)混在一起訓(xùn)練,后來發(fā)現(xiàn)不太work?!敝螅慅垐F(tuán)隊開始思考應(yīng)該讓模型先具有什么能力,再具有什么樣的能力,才發(fā)現(xiàn)要先灌輸通用的多模態(tài)與空間數(shù)據(jù),再灌輸機(jī)器人與輔助駕駛數(shù)據(jù)?!@很像人類先成人再開車的邏輯。
數(shù)據(jù)的配比也是關(guān)鍵。與駕駛場景相比,機(jī)器人面對的場景更多元也更復(fù)雜,因?yàn)榇嬖诓煌臋C(jī)器人本體,所以又存在不同種類的機(jī)器人數(shù)據(jù),這都導(dǎo)致機(jī)器人的數(shù)據(jù)更稀少。陳龍團(tuán)隊在互聯(lián)網(wǎng)上盡可能地搜索并加入了大量開源的機(jī)器人數(shù)據(jù),花了大量的時間做實(shí)驗(yàn)來驗(yàn)證機(jī)器人、駕駛與多模態(tài)數(shù)據(jù)具體應(yīng)該怎么配比。
除了配比,還要將數(shù)據(jù)相融?!拔覀儤?biāo)注了很多 CoT(Chain of Thought,思維鏈)數(shù)據(jù)?!标慅埜嬖V我們,這相當(dāng)于將兩個大任務(wù)分解成很多小任務(wù),告訴大模型要先識別具體的物體,再理解物體的狀態(tài),最后明白未來該怎么做。
端到端時代,大模型具備ScaLIng Law(縮放定律,指大模型性能會隨著參數(shù)、數(shù)據(jù)和算力的提升而提升)。但陳龍告訴我們,到了后期,模型輔助駕駛水平提升的邊際效應(yīng)遞減得越來越明顯。切換成 VLA 架構(gòu)之后,模型需要加入更多的、嶄新的三模態(tài)(視覺-語言-行動)輔助駕駛數(shù)據(jù),才會開始新的一輪ScaLIng Law。
這意味著陳龍團(tuán)隊需要重新標(biāo)注駕駛數(shù)據(jù),重新思考如何構(gòu)造不同的駕駛?cè)蝿?wù)。比如,“你需要構(gòu)造很多種問題,然后讓模型描述不同的駕駛片段,生成一段文字回答?!标慅埜嬖V我們,“一個問題、一段畫面、一個回答”,這在 VLA 時代只能算 “一種數(shù)據(jù)”。
顯然,單靠人力是無法完成如此龐大的數(shù)據(jù)構(gòu)造工作的。此時,羅福莉團(tuán)隊又發(fā)揮了重要的作用。關(guān)于駕駛片段數(shù)據(jù),陳龍團(tuán)隊可以復(fù)用羅福莉團(tuán)隊的AI Infra去搜集,然后設(shè)置問題讓XLA回答。至于回答是否準(zhǔn)確,陳龍團(tuán)隊可以利用Xiaomi MiMo-VL系列大模型來進(jìn)行監(jiān)督,再人工 “精篩” 一遍。
陳龍告訴我們,他們和羅福莉團(tuán)隊是“兄弟團(tuán)隊”。
教會大模型如何 “思考”
將Xiaomi MiMo-Embodied “撫養(yǎng)成人”并不意味著結(jié)束,進(jìn)入到量產(chǎn)部署階段,新的問題也隨之浮現(xiàn)。
“模型太大了?!标慅埜嬖V我們,去年年底,他們已經(jīng)利用內(nèi)部數(shù)據(jù),做了一個尺寸更小的、閉源的Xiaomi MiMo-Embodied,但與量產(chǎn)團(tuán)隊一起放到車端之后,發(fā)現(xiàn)車上的算力實(shí)在有限。
VLA架構(gòu)在去年快速被行業(yè)采用的原因,除了能夠提升輔助駕駛水平以外,還因?yàn)槠渚邆淇山忉屝耘c可追溯性。端到端架構(gòu)只有“輸入”與“輸出”兩端,中間模型通過海量駕駛數(shù)據(jù)自己學(xué)習(xí),但到底是怎么學(xué)習(xí)的,在實(shí)際的輔助駕駛中是怎么決策的,哪怕對于模型提出者本人也是一個“黑箱”。
但VLA架構(gòu)不同。VLA 自動駕駛模型架構(gòu)可以在輸入視覺信息(Vision)時,一并輸入語言(Language,地圖指令、駕駛規(guī)則、自然語言提示、人類駕駛解說等)進(jìn)行訓(xùn)練。實(shí)際推理時,VLA可以利用大語言模型(LLM)的語義理解和因果推理能力,將“V”與“L”結(jié)合起來做決策,思考力更強(qiáng)。因此最后輸出駕駛動作(Action)時,也可以將模型內(nèi)部的思考過程通過人類語言展現(xiàn)出來。
但利用人類語言,消耗的算力和時間實(shí)在太多了。如何讓 XLA 認(rèn)知大模型推理時更迅速且更高效,成為了陳龍思考的主題。
潛空間推理(Latent CoT)應(yīng)運(yùn)而生。陳龍在 XLA 認(rèn)知大模型宣傳視頻中介紹:“簡單來說,系統(tǒng)不再需要把思考過程翻譯成語言,而是在潛空間中直接使用高維機(jī)器語言進(jìn)行極速推理”,這樣就大幅提升了 XLA 面對復(fù)雜駕駛場景時的推理速度。如果事后需要,陳龍稱小米團(tuán)隊也可以將其思考過程解碼,保證其“可解釋與可追溯性”。
直接命令 XLA 大模型用自己的機(jī)器語言進(jìn)行思考的確更高效,但 XLA 模型究竟應(yīng)該怎么思考呢?如果沒有人類指導(dǎo),XLA 在推理時 “雖然中間多了很多步,但他不知道要用這幾步來干什么。所以最終肯定還是需要人類指導(dǎo)的。”
陳龍說,在每一次開車時,他都“無時無刻不在留意自己是怎么開車的”。他覺得大概人類在開車時的思考方式大致分三種:
第一種,運(yùn)用直覺。因?yàn)榇罅康鸟{駛經(jīng)驗(yàn)與對世界的理解已經(jīng)沉淀在人類的潛意識里,所以在開車時人類可以“腦袋放空”?!斑@更像端到端駕駛的方式”。
第二種,運(yùn)用語言和推理能力。比如,人類需要讀取標(biāo)識牌、導(dǎo)航的信息,判斷一下往哪里開。
XLA 大模型也一樣。以超車為例:給 XLA 一段車輛跟在前方慢車后的畫面,讓 XLA 自己思考,再把自己的機(jī)器語言翻譯成人類語言思維鏈,如果能還原出“前方慢車擋路一確認(rèn)安全一打燈變道超車一回原車道”的人類語言,說明它正確理解了人類駕駛的思考邏輯。在模型訓(xùn)練階段,陳龍團(tuán)隊會引入人工質(zhì)檢員和利用Xiaomi MiMo-VL大模型強(qiáng)大的視覺語言能力進(jìn)行監(jiān)督。
第三種方式,運(yùn)用想象。還是以超車為例,人類會判斷自車與前車的距離,變道的距離是否合適,這種對空間和未來的想象力,其實(shí)就來自自動駕駛的另一個范式——“世界模型(World Model)”的能力。
陳龍告訴我們,世界模型其實(shí)有兩種:
· 一種是“世界仿真模型(World Simulator Model,WSM)”,能夠生成無數(shù)接近真實(shí)世界的虛擬駕駛場景,包括各種罕見的長尾場景(Corner case)。XLA 能在里面進(jìn)行無數(shù)次駕駛訓(xùn)練,“再結(jié)合強(qiáng)化學(xué)習(xí),進(jìn)一步對齊人類偏好”。
· 另一種則是“世界動作模型(World Action Model)”,通過喂海量的駕駛數(shù)據(jù),模型能想象出未來的行車畫面,并通過預(yù)判作出駕駛決策?!叭绻隳芟胂蟪鑫磥硎鞘裁礃拥模鋵?shí)你就知道應(yīng)該怎么開車了”,陳龍說。
在訓(xùn)練階段,陳龍團(tuán)隊會要求其將思考過程解碼成其想象的畫面,之后讓XLA將自己解碼出來的畫面與真實(shí)記錄的未來畫面進(jìn)行比對,如果算出不同,XLA會自行通過反向傳播算法優(yōu)化網(wǎng)絡(luò)。
大量訓(xùn)練后,XLA 在駕駛時已經(jīng)學(xué)會了如何正確地思考,因此實(shí)際的輔助駕駛推理過程中,XLA 就沒有必要將每次推理解碼成人類語言或者未來圖像了,這樣就可以保證車端推理的極速。
通過多種訓(xùn)練練就的 XLA 認(rèn)知大模型,此后進(jìn)行潛空間思考時,三種方式都可以靈活運(yùn)用?!皾摽臻g思考的優(yōu)勢,就是我不限制你去想什么,也不限制你用什么方式思考。我們最終的目的是讓模型學(xué)會駕駛”,陳龍告訴我們。
先保下限,再談上限
2025年,國內(nèi)最熱門的輔助駕駛話題就是 VLA 與世界模型的路線之爭。理想在國內(nèi)最早采取 VLA 架構(gòu),隨后小鵬等車企與智駕供應(yīng)商跟進(jìn);而蔚來(NIO)、華為則更強(qiáng)調(diào)世界模型,推出了各自的 NWM(NIO World Model) 與 WEWA(云端世界引擎、世界行為模型) 方案。
去年8月,華為智能汽車解決方案 BU CEO 靳玉志公開表示,不會采取 VLA 這樣的 “取巧” 方案:“我們更看重 WA ,中間省掉 Language 這個環(huán)節(jié),通過信息輸入直接控車,而不是把視覺信息轉(zhuǎn)成語言,通過語言大模型再來控制車?!?/p>
但在陳龍看來,VLA 沒有將視覺信息“轉(zhuǎn)成” 語言, “L” 也不是“中間環(huán)節(jié)” ,而是增量信息?!?VLA 模型是在推理出來 ‘L’ 后,與 ‘V’ 一起進(jìn)行決策(Action)”。
簡而言之,不是 “V → L → A”,而是“( V + L )→ A ”。陳龍團(tuán)隊決定將下一篇論文命名為“OneVL”,意為在潛空間思考融合了 VLA 與世界模型。
而在今年,國內(nèi)智駕路線也開始收斂,“VLA + 世界模型”被行業(yè)默認(rèn)為可以同時采用的方案。華為車 BU 負(fù)責(zé)前瞻研發(fā)的2030實(shí)驗(yàn)室,也接連發(fā)表了DriveVLA-W0、DynVLA等論文。
“去年大家講 VLA、世界模型的概念多一些,但可能最終發(fā)現(xiàn),還是需要用戶體驗(yàn)好才行”。陳龍說。
但切換到 XLA 認(rèn)知大模型架構(gòu)的小米汽車(886064),眼下還有實(shí)際量產(chǎn)的關(guān)要過。
去年國內(nèi)更早切換到 VLA 或者世界模型架構(gòu)的車企,進(jìn)行 OTA (遠(yuǎn)程升級)后,用戶體驗(yàn)的實(shí)際效果都發(fā)生了波動,也引發(fā)了一系列的人事震蕩。小鵬集團(tuán)(XPEV)自動駕駛團(tuán)隊負(fù)責(zé)人由李力耘變更為劉先明;理想汽車(LI)智駕團(tuán)隊的賈鵬、夏中譜、王佳佳相繼離職,今年2月,自動駕駛研發(fā)高級副總裁郎咸朋離職;蔚來(NIO)汽車智駕團(tuán)隊的白宇利、馬寧寧、黃鑫等多位核心高管離職。
今年,小鵬集團(tuán)(XPEV)發(fā)布“第二代VLA”輔助駕駛架構(gòu)后,其董事長兼CEO何小鵬在兩會后的小范圍媒體溝通會中向《21汽車 · 一見Auto》表示,第二代VLA是他們拆掉了輔助駕駛中大量的規(guī)則,用自有的算力、更大的模型重建之后的結(jié)果?!比绻f原來輔助駕駛的上限是100分,今天的輔助駕駛可以做到一萬分到數(shù)萬分的規(guī)模,也就是上限特別高”。
但陳龍現(xiàn)在采取的策略是,目前推送的第一個版本,“調(diào)教會相對保守一些,會利用一些規(guī)則的限制進(jìn)行安全性兜底”,并持續(xù)進(jìn)行數(shù)據(jù)迭代,逐漸放開全模型的能力,“到時候用戶體驗(yàn)會更加絲滑”。
“輔助駕駛,安全是第一位的,能不能去掉規(guī)則,取決于你能不能做到絕對的安全。先保下限,再談上限”,陳龍告訴我們。
