亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

VLA和世界模型,誰(shuí)才是自動(dòng)駕駛的最優(yōu)解?

智駕最前沿 ? 來(lái)源:智駕最前沿 ? 作者:智駕最前沿 ? 2025-11-05 08:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)發(fā)展,其實(shí)現(xiàn)路徑也呈現(xiàn)出兩種趨勢(shì),一邊是以理想、小鵬、小米為代表的VLA(視覺(jué)—語(yǔ)言—行動(dòng))模型路線;另一邊則是以華為、蔚來(lái)為主導(dǎo)的世界模型(World Model)路線,這兩種路徑都為自動(dòng)駕駛快速落地提供了可能,那誰(shuí)才是最優(yōu)解?

wKgZO2kKoIiAZv-HAAAQo00DEvw936.jpg

什么是VLA模型?

VLA模型,即視覺(jué)—語(yǔ)言—行動(dòng)模型,是將視覺(jué)感知、語(yǔ)言理解和動(dòng)作生成串聯(lián)起來(lái)的一套方法。它先是通過(guò)視覺(jué)編碼器,將攝像頭看到的畫面轉(zhuǎn)換成語(yǔ)義豐富的特征向量,像是SigLIP、Dino V2/V3等這類模型就是用于完成這項(xiàng)任務(wù)的。這些視覺(jué)特征會(huì)被“翻譯”成一種類似語(yǔ)言的表征單元(token),并將其送入一個(gè)大型語(yǔ)言模型(LLM)中。LLM經(jīng)過(guò)多模態(tài)改造后,其任務(wù)不再只是生成文本,而是能夠基于這些視覺(jué)信息進(jìn)行如分析車道線的狀況、預(yù)判前方行人的意圖、或者評(píng)估不同駕駛策略的合理性等更高層次的語(yǔ)義推理。LLM的推理結(jié)果會(huì)被轉(zhuǎn)化為例像是軌跡和速度,從而驅(qū)動(dòng)車輛執(zhí)行等具體的控制指令。

wKgZPGkKoIiANPqZAACt64SgPJE514.jpg

圖片源自:網(wǎng)絡(luò)

從理論上看,VLA還是比較難以理解的,通俗理解下就是,VLA是讓車輛先用語(yǔ)言描述清楚眼睛看到了什么,再用語(yǔ)言進(jìn)行思考,最后把思考結(jié)果轉(zhuǎn)化為行動(dòng)。這種方法的優(yōu)勢(shì)在于,語(yǔ)言層面天然適合進(jìn)行抽象和長(zhǎng)時(shí)序推理,也便于整合上下文信息和規(guī)則知識(shí),這使得從感知到?jīng)Q策的橋梁可以建立在更明確、更具可遷移性的語(yǔ)義表示之上。

因?yàn)檎Z(yǔ)言模型擅長(zhǎng)將零散信息組合成高層結(jié)論,VLA在遇到多種復(fù)雜場(chǎng)景時(shí),理論上能更容易進(jìn)行“概念化”的判斷,同時(shí)也更容易將人類規(guī)則、法規(guī)或場(chǎng)景說(shuō)明以文本形式融入到訓(xùn)練與調(diào)優(yōu)流程中。

當(dāng)然,想將視覺(jué)特征可靠地轉(zhuǎn)換為L(zhǎng)LM能夠有效利用的token并不容易,有很多問(wèn)題需要解決。視覺(jué)與語(yǔ)言之間的信息損失和對(duì)齊問(wèn)題是一定要解決的;語(yǔ)言推理產(chǎn)生的結(jié)論也需要被嚴(yán)格約束在物理可行的動(dòng)作范圍內(nèi),否則就可能出現(xiàn)“想法很好”但“執(zhí)行不安全”的情況。此外,LLM的推理開銷、系統(tǒng)實(shí)時(shí)性以及決策的可解釋性等都是需要解決的問(wèn)題。雖然語(yǔ)言的抽象能力很強(qiáng),但物理世界對(duì)控制精度和約束的要求極高,如何在語(yǔ)義抽象與精確控制之間建立可信賴的映射,更是VLA需要去攻克的。

VLA的優(yōu)勢(shì)在于其強(qiáng)大的語(yǔ)義理解能力,對(duì)復(fù)雜的社交互動(dòng)和規(guī)則理解有天然優(yōu)勢(shì),適合用較少的顯式規(guī)則去捕捉場(chǎng)景中的行為意圖。對(duì)于那些希望利用“數(shù)據(jù)和模型”將駕駛經(jīng)驗(yàn)遷移到不同車型、不同城市的廠商而言,VLA的通用性和抽象能力是非常有吸引力的。其短板在于,對(duì)物理精度和安全約束的保障需要額外的工程手段,且其推理延遲、模型可解釋性和系統(tǒng)驗(yàn)證的難度都相對(duì)更高。

wKgZO2kKoIiAL2zFAAAR42n7O-I766.jpg

什么是世界模型路線

世界模型的核心思想,是把環(huán)境、物體和行為都建模成一個(gè)可計(jì)算、可推演的“物理世界”,決策不用借助自然語(yǔ)言作為中介,可以直接在狀態(tài)空間中進(jìn)行。世界模型強(qiáng)調(diào)“空間認(rèn)知與物理推演”,它從多傳感器數(shù)據(jù)出發(fā),能構(gòu)建一個(gè)連續(xù)、可預(yù)測(cè)的世界狀態(tài)表示,并基于物理規(guī)則進(jìn)行行為生成與驗(yàn)證。

以華為WEWA的“云端與本地協(xié)同”模式為例,團(tuán)隊(duì)可以在云端構(gòu)建高保真的物理仿真環(huán)境,讓模型在虛擬世界中不斷“駕駛”并生成海量的仿真軌跡。仿真環(huán)境能提供極高的數(shù)據(jù)密度,模型可以在大量受控的、甚至是極端的場(chǎng)景中學(xué)習(xí)物理世界的因果關(guān)系。通過(guò)一套對(duì)模型生成行為進(jìn)行打分的獎(jiǎng)懲機(jī)制,模型可以逐漸學(xué)會(huì)在各種情境下如何規(guī)避風(fēng)險(xiǎn),并做出合規(guī)且穩(wěn)定的決策。

wKgZPGkKoImAHqqFAABlPPOGSjo215.jpg

華為WEWA技術(shù)架構(gòu),圖片源自:網(wǎng)絡(luò)

訓(xùn)練完成后,通過(guò)模型蒸餾或壓縮技術(shù),將復(fù)雜的云端模型轉(zhuǎn)化為能在車端實(shí)時(shí)運(yùn)行的輕量版本,使得車輛能夠根據(jù)實(shí)時(shí)傳感器數(shù)據(jù)直接生成軌跡與控制命令。

世界模型的優(yōu)勢(shì)在于其出色的可控性和物理一致性。因?yàn)闆Q策是建立在明確的、可驗(yàn)證的狀態(tài)與動(dòng)力學(xué)模型之上,所以更容易進(jìn)行形式化驗(yàn)證、安全邊界檢查以及物理約束的強(qiáng)制執(zhí)行。這對(duì)于安全關(guān)鍵場(chǎng)景的可解釋性和可證偽性也更為有利。由于采用的是仿真訓(xùn)練,可以人為創(chuàng)造現(xiàn)實(shí)中罕見但對(duì)安全至關(guān)重要的極端場(chǎng)景,能有效彌補(bǔ)真實(shí)道路采集數(shù)據(jù)的不足,從而提升系統(tǒng)在危險(xiǎn)情況下的魯棒性。

與VLA模型一樣,世界模型技術(shù)路線也有很多問(wèn)題需要解決。高保真仿真、復(fù)雜動(dòng)力學(xué)建模以及對(duì)自車與環(huán)境的精確重建,都需要龐大的算力支撐與成本投入,這將是一筆非常大的開銷。對(duì)于如何構(gòu)建足夠多樣化的仿真環(huán)境以覆蓋現(xiàn)實(shí)世界的復(fù)雜性,并有效彌合“仿真與現(xiàn)實(shí)之間的遷移鴻溝”,也是一個(gè)需要解決的問(wèn)題。此外,該路線對(duì)感知傳感器的類型與精度存在較高依賴性,若采用以激光雷達(dá)為核心的方案,將直接讓系統(tǒng)成本與部署門檻直接提升,進(jìn)而會(huì)影響其規(guī)模化落地的進(jìn)程。

世界模型的優(yōu)勢(shì)在于其決策結(jié)果更接近真實(shí)的物理世界,易于注入約束并進(jìn)行形式化的檢驗(yàn),仿真訓(xùn)練能夠高效覆蓋各類風(fēng)險(xiǎn)場(chǎng)景,適合對(duì)安全性要求極高的產(chǎn)品化路徑。其短板在于仿真與現(xiàn)實(shí)的差距難以完全消除、系統(tǒng)建模復(fù)雜,以及對(duì)高精度傳感器的依賴可能推高整體成本。此外,在某些需要“常識(shí)”或長(zhǎng)時(shí)序社會(huì)推理的場(chǎng)景下,純物理規(guī)則驅(qū)動(dòng)的模型可能不如引入語(yǔ)言中介的模型那樣靈活和直觀。

wKgZO2kKoImASMI6AAASG3BOmsQ861.jpg

兩條路線的核心差異

將兩條路線進(jìn)行比較,會(huì)發(fā)現(xiàn)它們?cè)凇笆澜缛绾伪硎尽?、“決策如何形成”、“訓(xùn)練數(shù)據(jù)來(lái)源”以及“部署策略”這幾個(gè)維度上是完全不同的。

對(duì)于世界如何表示的問(wèn)題上,VLA傾向于用語(yǔ)義化的token來(lái)表達(dá)世界,突出抽象概念和高層意圖,這種表示方式便于將人類知識(shí)和規(guī)則以語(yǔ)言形式注入系統(tǒng);而世界模型則將世界表示為連續(xù)的狀態(tài)變量和實(shí)體間的空間關(guān)系,更強(qiáng)調(diào)幾何屬性、動(dòng)力學(xué)與可預(yù)測(cè)性。

在推理機(jī)制上,VLA依賴大語(yǔ)言模型的語(yǔ)義推理能力,擅長(zhǎng)處理長(zhǎng)時(shí)序依賴和復(fù)雜上下文的綜合判斷,但需要將語(yǔ)言結(jié)論映射到具體動(dòng)作,并確保其滿足物理約束;世界模型則直接在狀態(tài)空間進(jìn)行物理推演和策略生成,其推理過(guò)程更貼近物理規(guī)律,結(jié)果通常更易于驗(yàn)證,但在處理語(yǔ)義模糊、規(guī)則解釋或長(zhǎng)時(shí)序社會(huì)行為推斷時(shí),靈活性可能不如前者。

兩者訓(xùn)練數(shù)據(jù)的來(lái)源也有明顯差異。VLA更依賴大量經(jīng)過(guò)標(biāo)注的多模態(tài)數(shù)據(jù)、真實(shí)道路場(chǎng)景數(shù)據(jù),以及用于對(duì)齊的語(yǔ)言數(shù)據(jù);世界模型則重度依賴高質(zhì)量的仿真數(shù)據(jù)以及多傳感器融合的真實(shí)駕駛?cè)罩?,仿真?shù)據(jù)在數(shù)據(jù)量和場(chǎng)景可控性上占據(jù)明顯優(yōu)勢(shì)。

兩者在部署策略上也各有側(cè)重。VLA需要更復(fù)雜的模型棧來(lái)完成從視覺(jué)到語(yǔ)言再到控制的完整映射,LLM帶來(lái)的推理開銷和實(shí)時(shí)性要求會(huì)影響其在車端的直接應(yīng)用,因此很多技術(shù)方案中會(huì)采用輕量化、模型蒸餾或分層決策的方式,將高層規(guī)劃放在云端或開發(fā)階段,而將受嚴(yán)格約束的執(zhí)行模塊部署在車端。世界模型的“云端仿真訓(xùn)練、車端模型蒸餾”流程則更為直接,將仿真中學(xué)到的策略壓縮后運(yùn)行在車端,車端系統(tǒng)可以根據(jù)實(shí)時(shí)感知直接進(jìn)行物理層面的決策。

wKgZO2kKoIqAIcldAAASAJELks8845.jpg

最后的話

將VLA和世界模型放在一起比較,會(huì)發(fā)現(xiàn)它們各有專長(zhǎng),也各有局限,如果要給出誰(shuí)更具優(yōu)勢(shì)的結(jié)論,或許會(huì)很難。未來(lái),VLA與世界模型或?qū)⒆呦蛏疃热诤系姆较?,VLA作為感知與決策的“大腦”,負(fù)責(zé)理解復(fù)雜場(chǎng)景與高層規(guī)劃;世界模型則成為控制與執(zhí)行的“小腦”,確保所有動(dòng)作均符合物理規(guī)律與安全邊界。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Vla
    Vla
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    5872
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    791

    文章

    14604

    瀏覽量

    175217
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    自動(dòng)駕駛上常提的VLA世界模型有什么區(qū)別?

    自動(dòng)駕駛中常提的VLA,全稱是Vision-Language-Action,直譯就是“視覺(jué)-語(yǔ)言-動(dòng)作”。VLA的目標(biāo)是把相機(jī)或傳感器看到的畫面、能理解和處理自然語(yǔ)言的大模型能力,和最
    的頭像 發(fā)表于 10-18 10:15 ?538次閱讀

    西井科技端到端自動(dòng)駕駛模型獲得國(guó)際認(rèn)可

    近日,西井科技AI創(chuàng)研團(tuán)隊(duì)在國(guó)際權(quán)威自動(dòng)駕駛算法榜單NAVSIM v2中脫穎而出,憑借創(chuàng)新的端到端自動(dòng)駕駛模型,以綜合得分48.759的成績(jī)榮登榜單全球第二位,并在多個(gè)關(guān)鍵安全指標(biāo)上取得第一,充分彰顯西井科技在
    的頭像 發(fā)表于 10-15 17:20 ?942次閱讀

    為什么自動(dòng)駕駛端到端大模型有黑盒特性?

    [首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)落地,端到端(End-to-End)大模型也成為行業(yè)研究與應(yīng)用的熱門方向。相較于傳統(tǒng)自動(dòng)駕駛系統(tǒng)中的模塊化結(jié)構(gòu),端到端模型嘗試直接從感知輸
    的頭像 發(fā)表于 07-04 16:50 ?510次閱讀
    為什么<b class='flag-5'>自動(dòng)駕駛</b>端到端大<b class='flag-5'>模型</b>有黑盒特性?

    卡車、礦車的自動(dòng)駕駛和乘用車的自動(dòng)駕駛在技術(shù)要求上有何不同?

    [首發(fā)于智駕最前沿微信公眾號(hào)]自動(dòng)駕駛技術(shù)的發(fā)展,讓組合輔助駕駛得到大量應(yīng)用,但現(xiàn)在對(duì)于自動(dòng)駕駛技術(shù)的宣傳,普遍是在乘用車領(lǐng)域,而對(duì)于卡車、礦車的自動(dòng)駕駛發(fā)展,卻鮮有提及。其實(shí)在卡車、
    的頭像 發(fā)表于 06-28 11:38 ?602次閱讀
    卡車、礦車的<b class='flag-5'>自動(dòng)駕駛</b>和乘用車的<b class='flag-5'>自動(dòng)駕駛</b>在技術(shù)要求上有何不同?

    自動(dòng)駕駛中常提的世界模型是個(gè)啥?

    [首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)的不斷成熟,車輛需要在復(fù)雜多變的道路環(huán)境中安全地行駛,這就要求系統(tǒng)不僅能“看見”周圍的世界,還要能“理解”和“推測(cè)”未來(lái)的變化。世界模型
    的頭像 發(fā)表于 06-24 08:53 ?557次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b>中常提的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是個(gè)啥?

    VLA,是完全自動(dòng)駕駛的必經(jīng)之路?

    芯片,以及英偉達(dá)Thor的上車,越來(lái)越多的智駕方案選擇VLA的路徑。 ? 那么本文就梳理一下當(dāng)前智駕領(lǐng)域集中主流的大模型技術(shù)路線,以及各家廠商實(shí)現(xiàn)方式的區(qū)別和發(fā)展。 ? VLA 和VLM ?
    的頭像 發(fā)表于 06-18 00:06 ?8455次閱讀

    新能源車軟件單元測(cè)試深度解析:自動(dòng)駕駛系統(tǒng)視角

    焦點(diǎn)是否落在目標(biāo)物體上。某自動(dòng)駕駛公司借此發(fā)現(xiàn)模型在夜間過(guò)度關(guān)注路燈而非行人。 ? 實(shí)時(shí)性保障: ?時(shí)間感知測(cè)試框架(TAF)注入時(shí)間戳探針,監(jiān)控函數(shù)執(zhí)行耗時(shí)。例如,某路徑規(guī)劃算法因內(nèi)存泄漏導(dǎo)致響應(yīng)
    發(fā)表于 05-12 15:59

    模型如何推動(dòng)自動(dòng)駕駛技術(shù)革新?

    [首發(fā)于智駕最前沿微信公眾號(hào)]近年來(lái),人工智能技術(shù)正以前所未有的速度在各個(gè)領(lǐng)域滲透與應(yīng)用,而大模型(大語(yǔ)言模型和多模態(tài)大模型)的迅猛發(fā)展為自動(dòng)駕駛技術(shù)帶來(lái)了新的機(jī)遇。傳統(tǒng)的
    的頭像 發(fā)表于 04-20 13:16 ?598次閱讀
    大<b class='flag-5'>模型</b>如何推動(dòng)<b class='flag-5'>自動(dòng)駕駛</b>技術(shù)革新?

    自動(dòng)駕駛模型中常提的Token是個(gè)啥?對(duì)自動(dòng)駕駛有何影響?

    近年來(lái),人工智能技術(shù)迅速發(fā)展,大規(guī)模深度學(xué)習(xí)模型(即大模型)在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別以及自動(dòng)駕駛等多個(gè)領(lǐng)域取得了突破性進(jìn)展。自動(dòng)駕駛作為未來(lái)智能交通的重要方向,其核心技術(shù)之
    的頭像 發(fā)表于 03-28 09:16 ?833次閱讀

    NVIDIA Halos自動(dòng)駕駛汽車安全系統(tǒng)發(fā)布

    NVIDIA 整合了從云端到車端的安全自動(dòng)駕駛開發(fā)技術(shù)套件,涵蓋車輛架構(gòu)到 AI 模型,包括芯片、軟件、工具和服務(wù)。 物理 AI 正在為自動(dòng)駕駛和機(jī)器人開發(fā)技術(shù)的交叉領(lǐng)域釋放新的可能性,尤其是加速了
    的頭像 發(fā)表于 03-25 14:51 ?875次閱讀

    理想汽車推出全新自動(dòng)駕駛架構(gòu)

    2025年3月18日,理想汽車自動(dòng)駕駛技術(shù)研發(fā)負(fù)責(zé)人賈鵬在NVIDIA GTC 2025發(fā)表主題演講《VLA:邁向自動(dòng)駕駛物理智能體的關(guān)鍵一步》,分享了理想汽車對(duì)于下一代自動(dòng)駕駛技術(shù)M
    的頭像 發(fā)表于 03-19 14:12 ?810次閱讀

    華為、理想、特斯拉、商湯的世界模型是做什么用的

    最近世界模型(World Model)很火,甚至有人說(shuō)世界模型是終極自動(dòng)駕駛解決方案,實(shí)際上它只是端到端大
    的頭像 發(fā)表于 01-14 09:27 ?1665次閱讀
    華為、理想、特斯拉、商湯的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是做什么用的

    標(biāo)貝科技:自動(dòng)駕駛中的數(shù)據(jù)標(biāo)注類別分享

    自動(dòng)駕駛訓(xùn)練模型的成熟和穩(wěn)定離不開感知技術(shù)的成熟和穩(wěn)定,訓(xùn)練自動(dòng)駕駛感知模型需要使用大量準(zhǔn)確真實(shí)的數(shù)據(jù)。據(jù)英特爾計(jì)算,L3+級(jí)自動(dòng)駕駛每輛汽
    的頭像 發(fā)表于 11-22 15:07 ?2581次閱讀
    標(biāo)貝科技:<b class='flag-5'>自動(dòng)駕駛</b>中的數(shù)據(jù)標(biāo)注類別分享

    標(biāo)貝科技:自動(dòng)駕駛中的數(shù)據(jù)標(biāo)注類別分享

    自動(dòng)駕駛訓(xùn)練模型的成熟和穩(wěn)定離不開感知技術(shù)的成熟和穩(wěn)定,訓(xùn)練自動(dòng)駕駛感知模型需要使用大量準(zhǔn)確真實(shí)的數(shù)據(jù)。據(jù)英特爾計(jì)算,L3+級(jí)自動(dòng)駕駛每輛汽
    的頭像 發(fā)表于 11-22 14:58 ?5006次閱讀
    標(biāo)貝科技:<b class='flag-5'>自動(dòng)駕駛</b>中的數(shù)據(jù)標(biāo)注類別分享