国产毛片基地,综合网成人,va亚洲va日韩不卡在线观看,欧美一区二区三区aa,国产日韩亚洲,黄色成人影视,欧美天天爽

<dl id="wpt54"></dl>
<delect id="wpt54"></delect>

<delect id="wpt54"></delect>

小米陳龍：陪小米智駕長到十八歲

2026-05-09 21:52:06

來源：21世紀(jì)經(jīng)濟(jì)報道

分享

文章提及標(biāo)的

小米汽車--

阿里巴巴--

人工智能--

蔚來--

小鵬集團(tuán)--

理想汽車--

21世紀(jì)經(jīng)濟(jì)報道記者何煦陽

4月1日，《21汽車·一見Auto》與小米汽車（886064）智能駕駛（885736）基座大模型負(fù)責(zé)人陳龍進(jìn)行了一次面對面訪談。

“小時候，我們學(xué)說話和認(rèn)字。隨著慢慢成長，我們會經(jīng)常摸、拿、抓、取一些東西。等到我們具備了強(qiáng)大的語言能力和對空間的理解和推理能力，差不多十八歲以后，我們再去學(xué)習(xí)。這樣才能將我們習(xí)得的一切融入駕駛之中，不僅開得更快，還開得更好。XLA 大模型也一樣。”在訪談時，陳龍對我們說。

3月份，小米剛發(fā)布了新一代SU7，并宣布輔助駕駛升級到 XLA 認(rèn)知大模型架構(gòu)。小米集團(tuán)董事長雷軍在新一代SU7發(fā)布會上稱，之所以命名為 “XLA” 而非業(yè)內(nèi)俗稱的 “VLA（Vision-Language-Action Model，視覺 - 語言 - 動作）”大模型，是因?yàn)槟Ｐ途邆洹岸嗄B(tài)的認(rèn)知輸入”：小米還融入了聲音、機(jī)器人數(shù)據(jù)等模態(tài)。

陳龍就是開發(fā) XLA 認(rèn)知大模型的負(fù)責(zé)人。童年時，他喜歡美劇《霹靂游俠》里的智能跑車 KITT，這臺跑車有鮮明的自我意識，通過自動駕駛多次幫助主角化險為夷。長大后，他曾在英國劍橋大學(xué)孵化的自動駕駛公司 Wayve 任職，是將 VLA 模型引入輔助駕駛領(lǐng)域的先行者，致力于令大模型的駕駛決策過程更加透明。一年之前，他加入小米，擔(dān)任輔助駕駛 VLA 技術(shù)負(fù)責(zé)人。

彼時的小米輔助駕駛架構(gòu)還處于 “端到端（End-to-End，一種深度學(xué)習(xí)模型范式，直接從原始輸入映射到最終輸出） + VLM（視覺 - 語言模型，Vision-Language Model） ” 階段。陳龍將這一階段的核心，提煉為“數(shù)據(jù)驅(qū)動”。端到端拆掉了傳統(tǒng)輔助駕駛的“感知”“規(guī)劃”“決策”模塊，通過直接灌入大量駕駛場景數(shù)據(jù)，直接讓模型學(xué)習(xí)并輸出駕駛行為。2024年，國內(nèi)車企及供應(yīng)商集體切換到端到端架構(gòu)，輔助駕駛的整體水平均得到了質(zhì)的提升。

但進(jìn)入2025年，端到端架構(gòu)的缺陷開始顯現(xiàn)。通俗來說，大模型雖然靠“死記硬背”海量的駕駛數(shù)據(jù)提升了自己的駕駛水平，但現(xiàn)實(shí)世界總會出現(xiàn)更多元、更復(fù)雜的駕駛場景。大模型需要真正理解和認(rèn)知人類社會和現(xiàn)實(shí)世界，才不會在現(xiàn)實(shí)世界中遇到新的場景時“傻眼”，像老司機(jī)一樣思考，做到“舉一反三”。——陳龍將新階段的核心，提煉為“認(rèn)知驅(qū)動”。

先讓大模型長到十八歲

可是如何才能讓大模型學(xué)會“認(rèn)知”？

端到端時代，大模型被灌入了海量的駕駛數(shù)據(jù)，但這些數(shù)據(jù)還不夠。陳龍需要打造一個更龐大的具身基座大模型，這個模型中不僅需要駕駛數(shù)據(jù)，還需要有機(jī)器人數(shù)據(jù)、多模態(tài)數(shù)據(jù)（圖片、文字、視頻）。

加入機(jī)器人數(shù)據(jù)，是為了讓模型如同人類從孩童開始一般“與各種物體進(jìn)行交互”，更理解“物體與物體之間的邏輯關(guān)系”。而加入海量的多模態(tài)數(shù)據(jù)，是要讓模型如同人類從孩童開始一般識字，慢慢發(fā)展視覺和語言能力，具備對人類社會和現(xiàn)實(shí)世界的通識。整個過程，相當(dāng)于“先讓大模型長到十八歲”。

2025年11月21日，小米正式發(fā)布并開源小米具身大模型 “Xiaomi MiMo-Embodied ”。為了將小米的具身基座大模型撫養(yǎng)成人，陳龍團(tuán)隊花了八個月的時間，但趟過的彎路卻遠(yuǎn)不只八次。

在這個過程中，曾在阿里巴巴（BABA）達(dá)摩院、幻方量化及DeepSeek（深度求索）任職，如今擔(dān)任小米集團(tuán) AI 實(shí)驗(yàn)室 MiMo 大模型團(tuán)隊負(fù)責(zé)人的羅福莉，給予了他們很多幫助?！傲_福莉和他們團(tuán)隊，不僅給我們提供了一個很強(qiáng)的基座模型Xiaomi MiMo-VL系列，還與我們共享了一套訓(xùn)練框架。”陳龍告訴我們。

2025年5月30日，小米發(fā)布并開源了多模態(tài)大模型 “Xiaomi MiMo-VL”。陳龍團(tuán)隊采用了 Xiaomi MiMo-VL 中的 “視覺編碼器”，能將高分辨率的畫面編碼成機(jī)器能理解的視覺 Token，并直接 “繼承了其成熟的視覺-語言對齊機(jī)制和強(qiáng)大的推理能力” 。這意味著陳龍團(tuán)隊不用從零開始訓(xùn)練自己的基座模型，大大縮短了Xiaomi MiMo-Embodied “成年”的時間。

小米具身大模型MiMo-Embodied技術(shù)報告節(jié)選

陳龍告訴我們，Xiaomi MiMo-Embodied 的 AI Infra（人工智能（885728）基礎(chǔ)設(shè)施，常簡稱為 “AI基建”），很大一部分也是復(fù)用羅福莉團(tuán)隊的。

不過，將大模型混入如此多元的數(shù)據(jù)，對陳龍團(tuán)隊來講也是第一次，所以他們搞錯了很多次灌輸數(shù)據(jù)的順序。

“因?yàn)橹耙矝]人探索過，所以我們錯了很多次。一開始我們就想直接將數(shù)據(jù)混在一起訓(xùn)練，后來發(fā)現(xiàn)不太work?！敝螅慅垐F(tuán)隊開始思考應(yīng)該讓模型先具有什么能力，再具有什么樣的能力，才發(fā)現(xiàn)要先灌輸通用的多模態(tài)與空間數(shù)據(jù)，再灌輸機(jī)器人與輔助駕駛數(shù)據(jù)?！@很像人類先成人再開車的邏輯。

數(shù)據(jù)的配比也是關(guān)鍵。與駕駛場景相比，機(jī)器人面對的場景更多元也更復(fù)雜，因?yàn)榇嬖诓煌臋C(jī)器人本體，所以又存在不同種類的機(jī)器人數(shù)據(jù)，這都導(dǎo)致機(jī)器人的數(shù)據(jù)更稀少。陳龍團(tuán)隊在互聯(lián)網(wǎng)上盡可能地搜索并加入了大量開源的機(jī)器人數(shù)據(jù)，花了大量的時間做實(shí)驗(yàn)來驗(yàn)證機(jī)器人、駕駛與多模態(tài)數(shù)據(jù)具體應(yīng)該怎么配比。

除了配比，還要將數(shù)據(jù)相融?！拔覀儤?biāo)注了很多 CoT（Chain of Thought，思維鏈）數(shù)據(jù)?！标慅埜嬖V我們，這相當(dāng)于將兩個大任務(wù)分解成很多小任務(wù)，告訴大模型要先識別具體的物體，再理解物體的狀態(tài)，最后明白未來該怎么做。

端到端時代，大模型具備ScaLIng Law（縮放定律，指大模型性能會隨著參數(shù)、數(shù)據(jù)和算力的提升而提升）。但陳龍告訴我們，到了后期，模型輔助駕駛水平提升的邊際效應(yīng)遞減得越來越明顯。切換成 VLA 架構(gòu)之后，模型需要加入更多的、嶄新的三模態(tài)（視覺-語言-行動）輔助駕駛數(shù)據(jù)，才會開始新的一輪ScaLIng Law。

這意味著陳龍團(tuán)隊需要重新標(biāo)注駕駛數(shù)據(jù)，重新思考如何構(gòu)造不同的駕駛?cè)蝿?wù)。比如，“你需要構(gòu)造很多種問題，然后讓模型描述不同的駕駛片段，生成一段文字回答?！标慅埜嬖V我們，“一個問題、一段畫面、一個回答”，這在 VLA 時代只能算 “一種數(shù)據(jù)”。

顯然，單靠人力是無法完成如此龐大的數(shù)據(jù)構(gòu)造工作的。此時，羅福莉團(tuán)隊又發(fā)揮了重要的作用。關(guān)于駕駛片段數(shù)據(jù)，陳龍團(tuán)隊可以復(fù)用羅福莉團(tuán)隊的AI Infra去搜集，然后設(shè)置問題讓XLA回答。至于回答是否準(zhǔn)確，陳龍團(tuán)隊可以利用Xiaomi MiMo-VL系列大模型來進(jìn)行監(jiān)督，再人工 “精篩” 一遍。

陳龍告訴我們，他們和羅福莉團(tuán)隊是“兄弟團(tuán)隊”。

教會大模型如何 “思考”

將Xiaomi MiMo-Embodied “撫養(yǎng)成人”并不意味著結(jié)束，進(jìn)入到量產(chǎn)部署階段，新的問題也隨之浮現(xiàn)。

“模型太大了?！标慅埜嬖V我們，去年年底，他們已經(jīng)利用內(nèi)部數(shù)據(jù)，做了一個尺寸更小的、閉源的Xiaomi MiMo-Embodied，但與量產(chǎn)團(tuán)隊一起放到車端之后，發(fā)現(xiàn)車上的算力實(shí)在有限。

VLA架構(gòu)在去年快速被行業(yè)采用的原因，除了能夠提升輔助駕駛水平以外，還因?yàn)槠渚邆淇山忉屝耘c可追溯性。端到端架構(gòu)只有“輸入”與“輸出”兩端，中間模型通過海量駕駛數(shù)據(jù)自己學(xué)習(xí)，但到底是怎么學(xué)習(xí)的，在實(shí)際的輔助駕駛中是怎么決策的，哪怕對于模型提出者本人也是一個“黑箱”。

但VLA架構(gòu)不同。VLA 自動駕駛模型架構(gòu)可以在輸入視覺信息（Vision）時，一并輸入語言（Language，地圖指令、駕駛規(guī)則、自然語言提示、人類駕駛解說等）進(jìn)行訓(xùn)練。實(shí)際推理時，VLA可以利用大語言模型（LLM）的語義理解和因果推理能力，將“V”與“L”結(jié)合起來做決策，思考力更強(qiáng)。因此最后輸出駕駛動作（Action）時，也可以將模型內(nèi)部的思考過程通過人類語言展現(xiàn)出來。

但利用人類語言，消耗的算力和時間實(shí)在太多了。如何讓 XLA 認(rèn)知大模型推理時更迅速且更高效，成為了陳龍思考的主題。

潛空間推理（Latent CoT）應(yīng)運(yùn)而生。陳龍在 XLA 認(rèn)知大模型宣傳視頻中介紹：“簡單來說，系統(tǒng)不再需要把思考過程翻譯成語言，而是在潛空間中直接使用高維機(jī)器語言進(jìn)行極速推理”，這樣就大幅提升了 XLA 面對復(fù)雜駕駛場景時的推理速度。如果事后需要，陳龍稱小米團(tuán)隊也可以將其思考過程解碼，保證其“可解釋與可追溯性”。

直接命令 XLA 大模型用自己的機(jī)器語言進(jìn)行思考的確更高效，但 XLA 模型究竟應(yīng)該怎么思考呢？如果沒有人類指導(dǎo)，XLA 在推理時 “雖然中間多了很多步，但他不知道要用這幾步來干什么。所以最終肯定還是需要人類指導(dǎo)的。”

陳龍說，在每一次開車時，他都“無時無刻不在留意自己是怎么開車的”。他覺得大概人類在開車時的思考方式大致分三種：

第一種，運(yùn)用直覺。因?yàn)榇罅康鸟{駛經(jīng)驗(yàn)與對世界的理解已經(jīng)沉淀在人類的潛意識里，所以在開車時人類可以“腦袋放空”?！斑@更像端到端駕駛的方式”。

第二種，運(yùn)用語言和推理能力。比如，人類需要讀取標(biāo)識牌、導(dǎo)航的信息，判斷一下往哪里開。

XLA 大模型也一樣。以超車為例：給 XLA 一段車輛跟在前方慢車后的畫面，讓 XLA 自己思考，再把自己的機(jī)器語言翻譯成人類語言思維鏈，如果能還原出“前方慢車擋路一確認(rèn)安全一打燈變道超車一回原車道”的人類語言，說明它正確理解了人類駕駛的思考邏輯。在模型訓(xùn)練階段，陳龍團(tuán)隊會引入人工質(zhì)檢員和利用Xiaomi MiMo-VL大模型強(qiáng)大的視覺語言能力進(jìn)行監(jiān)督。

第三種方式，運(yùn)用想象。還是以超車為例，人類會判斷自車與前車的距離，變道的距離是否合適，這種對空間和未來的想象力，其實(shí)就來自自動駕駛的另一個范式——“世界模型（World Model）”的能力。

陳龍告訴我們，世界模型其實(shí)有兩種：

· 一種是“世界仿真模型（World Simulator Model，WSM）”，能夠生成無數(shù)接近真實(shí)世界的虛擬駕駛場景，包括各種罕見的長尾場景（Corner case）。XLA 能在里面進(jìn)行無數(shù)次駕駛訓(xùn)練，“再結(jié)合強(qiáng)化學(xué)習(xí)，進(jìn)一步對齊人類偏好”。

· 另一種則是“世界動作模型（World Action Model）”，通過喂海量的駕駛數(shù)據(jù)，模型能想象出未來的行車畫面，并通過預(yù)判作出駕駛決策?！叭绻隳芟胂蟪鑫磥硎鞘裁礃拥模鋵?shí)你就知道應(yīng)該怎么開車了”，陳龍說。

在訓(xùn)練階段，陳龍團(tuán)隊會要求其將思考過程解碼成其想象的畫面，之后讓XLA將自己解碼出來的畫面與真實(shí)記錄的未來畫面進(jìn)行比對，如果算出不同，XLA會自行通過反向傳播算法優(yōu)化網(wǎng)絡(luò)。

大量訓(xùn)練后，XLA 在駕駛時已經(jīng)學(xué)會了如何正確地思考，因此實(shí)際的輔助駕駛推理過程中，XLA 就沒有必要將每次推理解碼成人類語言或者未來圖像了，這樣就可以保證車端推理的極速。

通過多種訓(xùn)練練就的 XLA 認(rèn)知大模型，此后進(jìn)行潛空間思考時，三種方式都可以靈活運(yùn)用?！皾摽臻g思考的優(yōu)勢，就是我不限制你去想什么，也不限制你用什么方式思考。我們最終的目的是讓模型學(xué)會駕駛”，陳龍告訴我們。

先保下限，再談上限

2025年，國內(nèi)最熱門的輔助駕駛話題就是 VLA 與世界模型的路線之爭。理想在國內(nèi)最早采取 VLA 架構(gòu)，隨后小鵬等車企與智駕供應(yīng)商跟進(jìn)；而蔚來（NIO）、華為則更強(qiáng)調(diào)世界模型，推出了各自的 NWM（NIO World Model）與 WEWA（云端世界引擎、世界行為模型) 方案。

去年8月，華為智能汽車解決方案 BU CEO 靳玉志公開表示，不會采取 VLA 這樣的 “取巧” 方案：“我們更看重 WA ，中間省掉 Language 這個環(huán)節(jié)，通過信息輸入直接控車，而不是把視覺信息轉(zhuǎn)成語言，通過語言大模型再來控制車?！?/p>

但在陳龍看來，VLA 沒有將視覺信息“轉(zhuǎn)成” 語言， “L” 也不是“中間環(huán)節(jié)” ，而是增量信息?！?VLA 模型是在推理出來 ‘L’ 后，與 ‘V’ 一起進(jìn)行決策（Action）”。

簡而言之，不是 “V → L → A”，而是“（ V + L ）→ A ”。陳龍團(tuán)隊決定將下一篇論文命名為“OneVL”，意為在潛空間思考融合了 VLA 與世界模型。

而在今年，國內(nèi)智駕路線也開始收斂，“VLA + 世界模型”被行業(yè)默認(rèn)為可以同時采用的方案。華為車 BU 負(fù)責(zé)前瞻研發(fā)的2030實(shí)驗(yàn)室，也接連發(fā)表了DriveVLA-W0、DynVLA等論文。

“去年大家講 VLA、世界模型的概念多一些，但可能最終發(fā)現(xiàn)，還是需要用戶體驗(yàn)好才行”。陳龍說。

但切換到 XLA 認(rèn)知大模型架構(gòu)的小米汽車（886064），眼下還有實(shí)際量產(chǎn)的關(guān)要過。

去年國內(nèi)更早切換到 VLA 或者世界模型架構(gòu)的車企，進(jìn)行 OTA （遠(yuǎn)程升級）后，用戶體驗(yàn)的實(shí)際效果都發(fā)生了波動，也引發(fā)了一系列的人事震蕩。小鵬集團(tuán)（XPEV）自動駕駛團(tuán)隊負(fù)責(zé)人由李力耘變更為劉先明；理想汽車（LI）智駕團(tuán)隊的賈鵬、夏中譜、王佳佳相繼離職，今年2月，自動駕駛研發(fā)高級副總裁郎咸朋離職；蔚來（NIO）汽車智駕團(tuán)隊的白宇利、馬寧寧、黃鑫等多位核心高管離職。

今年，小鵬集團(tuán)（XPEV）發(fā)布“第二代VLA”輔助駕駛架構(gòu)后，其董事長兼CEO何小鵬在兩會后的小范圍媒體溝通會中向《21汽車 · 一見Auto》表示，第二代VLA是他們拆掉了輔助駕駛中大量的規(guī)則，用自有的算力、更大的模型重建之后的結(jié)果?！比绻f原來輔助駕駛的上限是100分，今天的輔助駕駛可以做到一萬分到數(shù)萬分的規(guī)模，也就是上限特別高”。

但陳龍現(xiàn)在采取的策略是，目前推送的第一個版本，“調(diào)教會相對保守一些，會利用一些規(guī)則的限制進(jìn)行安全性兜底”，并持續(xù)進(jìn)行數(shù)據(jù)迭代，逐漸放開全模型的能力，“到時候用戶體驗(yàn)會更加絲滑”。

“輔助駕駛，安全是第一位的，能不能去掉規(guī)則，取決于你能不能做到絕對的安全。先保下限，再談上限”，陳龍告訴我們。

免責(zé)聲明：風(fēng)險提示：本文內(nèi)容僅供參考，不代表同花順觀點(diǎn)。同花順各類信息服務(wù)基于人工智能算法，如有出入請以證監(jiān)會指定上市公司信息披露平臺為準(zhǔn)。如有投資者據(jù)此操作，風(fēng)險自擔(dān)，同花順對此不承擔(dān)任何責(zé)任。

返回首頁

投資者關(guān)系

關(guān)于同花順

運(yùn)營許可

聯(lián)系我們

用戶體驗(yàn)計劃

不良信息舉報與個人信息保護(hù)咨詢專線：10100571違法和不良信息涉企侵權(quán)舉報涉算法推薦舉報專區(qū)涉青少年不良信息舉報專區(qū)

浙江同花順互聯(lián)信息技術(shù)有限公司版權(quán)所有

網(wǎng)站備案號：浙ICP備18032105號-4

證券投資咨詢服務(wù)提供：浙江同花順云軟件有限公司（中國證監(jiān)會核發(fā)證書編號：ZX0050）

不良信息舉報

浙江市場監(jiān)管

舉報

<delect id="ri716"></delect>