今日報紙

多家企業(yè)押注VLA背后：智駕路線要趨于融合？

每日經(jīng)濟新聞 2025-12-16 20:12:02

每經(jīng)記者｜孫磊每經(jīng)編輯｜裴健如

12月11日，小鵬汽車董事長何小鵬發(fā)文稱，小鵬汽車（以下或簡稱小鵬）的VLA 2.0（VisionLanguage-Action，視覺語言動作模型）將在下個季度發(fā)布，“因為是第一個版本，所以壓力很大”。

此外，何小鵬還與公司自動駕駛團隊立下特別“賭約”：若2026年8月30日前，小鵬VLA系統(tǒng)在國內(nèi)達(dá)到特斯拉FSD V14.2版本在硅谷的整體效果，他將在硅谷籌建特色中國風(fēng)味食堂。反之，自動駕駛負(fù)責(zé)人需在金門大橋完成相關(guān)挑戰(zhàn)。

就在前一天，理想汽車（以下或簡稱理想）自動駕駛研發(fā)高級副總裁郎咸朋在社交平臺發(fā)布長文，回應(yīng)宇樹科技（以下或簡稱宇樹）創(chuàng)始人王興興此前對VLA模型的質(zhì)疑。

視覺中國圖

“我跟王興興觀點最不一樣的地方在于，他認(rèn)為模型架構(gòu)更重要，但我認(rèn)為模型的關(guān)鍵是要與整個具身智能系統(tǒng)適配。在此基礎(chǔ)上，數(shù)據(jù)是起決定意義的。”郎咸朋認(rèn)為，“VLA就是自動駕駛最好的模型方案。”

近幾年，輔助駕駛行業(yè)經(jīng)歷了多次“技術(shù)底座”的范式遷移——從企業(yè)普遍把激光雷達(dá)+高精地圖奉為“黃金組合”，到引入BEV（鳥瞰圖）+Transformer擺脫高精度地圖，再到端到端將輔助駕駛帶入AI（人工智能）時代，企業(yè)普遍按照這個路徑來推進(jìn)輔助駕駛功能。

進(jìn)入2025年，行業(yè)在輔助駕駛的發(fā)展方向上出現(xiàn)了VLA與世界模型的“分歧”，而理想與小鵬就是選擇VLA方案的代表。

兩技術(shù)派別“各執(zhí)一詞”

據(jù)記者了解，VLA被業(yè)內(nèi)視為端到端方案的“智能增強版”。其名稱中的V代表視覺感知（Vision），A代表動作執(zhí)行（Action），而中間的L則是大語言模型（Language Model）。V負(fù)責(zé)實時感知環(huán)境，A負(fù)責(zé)輸出具體控制指令，L則像“中臺”一樣，把感知信息轉(zhuǎn)譯為可供A執(zhí)行的規(guī)劃與決策。

清華大學(xué)車輛與運載學(xué)院助理研究員顏宏偉表示：“VLA是多模態(tài)大模型驅(qū)動的智能體架構(gòu)，其核心突破在于引入思維鏈，通過語言模型實現(xiàn)對環(huán)境理解與決策推理的可解釋性。”

“VLA模型融合了語言模型，具備強大的思維鏈能力，能擺脫傳統(tǒng)端到端模型的黑盒難題，并將信息串聯(lián)、分析，從而推理出因果關(guān)系。此外，它天然集成海量知識庫，泛化能力更強，能夠更好地適應(yīng)復(fù)雜多變的真實道路環(huán)境。”元戎啟行CEO（首席執(zhí)行官）周光認(rèn)為。

不過，王興興在今年8月的一次演講中表示，“我個人對VLA模型還是保持比較懷疑的態(tài)度。”在他看來，VLA模型是一個相對比較傻瓜式的架構(gòu)，在和真實世界交互時，它的數(shù)據(jù)質(zhì)量、能采集的數(shù)據(jù)是不太夠用的。

郎咸朋認(rèn)為，空談架構(gòu)不如“看療效”。在自動駕駛領(lǐng)域，脫離了海量真實數(shù)據(jù)談模型架構(gòu)都是空中樓閣，“我們之所以堅持VLA，是因為我們擁有數(shù)百萬輛車構(gòu)建的數(shù)據(jù)閉環(huán)，這讓我們能在當(dāng)前算力下，把駕駛水平做到接近人類”。

郎咸朋稱，要想做好自動駕駛，必須先把自動駕駛當(dāng)作完整的具身智能系統(tǒng)對待，每一部分在研發(fā)過程中要相互配合才能將價值發(fā)揮出來。此外，他還認(rèn)為，模型的關(guān)鍵是要與整個具身智能系統(tǒng)適配，在此基礎(chǔ)上，數(shù)據(jù)是起決定意義的。在機器人領(lǐng)域獲取數(shù)據(jù)相對困難，但在自動駕駛領(lǐng)域，特別是對建立起數(shù)據(jù)閉環(huán)能力的車企來說并不是大問題。

盡管郎咸朋表明了機器人領(lǐng)域與汽車領(lǐng)域有別，車企搭建數(shù)據(jù)閉環(huán)并非難事，仍有一些汽車背景的公司并未踏上VLA這條路徑。比如，華為智能汽車解決方案BU CEO靳玉志就表示，“我們不會走向VLA的路徑。這樣的路徑看似取巧，其實并不是走向真正自動駕駛的路徑”。

據(jù)記者了解，“世界模型”源自人類對環(huán)境的認(rèn)知機制，指的是AI系統(tǒng)通過感知數(shù)據(jù)構(gòu)建一個對物理世界的內(nèi)部模擬，從而具備預(yù)測、推理和生成合理行為鏈的能力。在輔助駕駛中，它不再只是“看見”世界，而是理解世界，預(yù)測未來可能發(fā)生的情況，并提前做出決策。例如，它不僅能識別前方有一輛自行車，還能預(yù)測它是否會突然變道，從而提前減速或避讓。

除華為外，蔚來、商湯等企業(yè)也都在此技術(shù)路線上進(jìn)行布局。

VLA與世界模型將融合？

值得注意的是，盡管不同企業(yè)對于VLA和世界模型兩種技術(shù)“各執(zhí)一詞”，但兩者并不矛盾。

國海證券在研報中表示：“VLA與世界模型在技術(shù)上并非同級或?qū)α㈥P(guān)系。我們將發(fā)展路徑分為兩派，實質(zhì)上是產(chǎn)業(yè)玩家在實現(xiàn)端到端能力之后，在能力優(yōu)化側(cè)重點上出現(xiàn)了分化。”

“雙方技術(shù)融合趨勢明顯，雙方均在向?qū)Ψ筋I(lǐng)域滲透。例如，VLA引入強化學(xué)習(xí)與仿真優(yōu)化動作生成。”國海證券在研報中表示。

在去年底的一場直播中，理想汽車董事長李想也提到，VLA可以拆解為預(yù)訓(xùn)練、后訓(xùn)練和強化學(xué)習(xí)三個層面。強化學(xué)習(xí)中最重要的一步就是在世界模型里閉環(huán)學(xué)習(xí)，引入舒適度、碰撞、交通規(guī)則等規(guī)則來打磨、反饋，讓VLA比人類開得更好。

“世界模型的高算力需求（訓(xùn)練和推理都是）決定了它更適合在云端做數(shù)據(jù)生成和極度逼真的仿真測試和強化訓(xùn)練，這也是理想目前正在做的。”郎咸朋說。

小馬智行CTO（首席技術(shù)官）樓天城表示，“我了解到大部分公司兩種技術(shù)都用，比如Waymo也用了谷歌Gemini大語言模型。世界模型和VLA模型不是一個維度的東西，而是交錯的。這兩個東西不矛盾、不沖突，機器人領(lǐng)域非常多。我認(rèn)為想要做百輛無人車以上，世界模型最關(guān)鍵。對其他公司（而言），可能做VLA模型賣車最關(guān)鍵。大家選擇不同的路線是因為目標(biāo)不同”。

值得一提的是，既向C端賣車，又計劃推出Robotaxi（自動駕駛出租車）的小鵬，有將兩種技術(shù)融合的趨勢。在11月5日舉行的2025 AI DAY小鵬科技日上，小鵬汽車正式發(fā)布了第二代VLA。第一代VLA的方案是V到L再到A，第二代VLA是V+L到A，也就是把L轉(zhuǎn)移到了輸入端。

“第一代VLA模型中間涉及兩次語言轉(zhuǎn)換，這會帶來大量信息損耗，比如一段1200多字的文字描述也無法精準(zhǔn)地‘翻譯’一個十幾秒的視頻，而以視覺為核心，則把模型看到的世界直接轉(zhuǎn)換成運動軌跡。”何小鵬說。

封面圖片來源：視覺中國圖

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

模型數(shù)據(jù) 企業(yè)

上一篇文章

濱會生物攜帶“以毒攻毒治癌攻略”遞表港交所

返回每經(jīng)網(wǎng)首頁

下一篇文章

保利發(fā)展：公開發(fā)行不超150億元公司債券獲批

相關(guān)文章