【智駕中的大模型-1】自動(dòng)駕駛場(chǎng)景中的大模型
1. 前言
我們知道,大模型現(xiàn)在很火爆,尤其是 deepseek 風(fēng)靡全球后,大模型毫無(wú)疑問(wèn)成為為中國(guó)新質(zhì)生產(chǎn)力的代表。百度創(chuàng)始人李彥宏也說(shuō):“2025 年可能會(huì)成為 AI 智能體爆發(fā)的元年”。
隨著科技的飛速發(fā)展,大模型的影響力日益凸顯。它不僅在數(shù)據(jù)處理和分析方面展現(xiàn)出了強(qiáng)大的能力,還為各個(gè)領(lǐng)域帶來(lái)了前所未有的創(chuàng)新機(jī)遇。在眾多應(yīng)用場(chǎng)景中,智能駕駛無(wú)疑是備受矚目的一個(gè)領(lǐng)域。
智能駕駛作為未來(lái)交通的重要發(fā)展方向,具有巨大的潛力和市場(chǎng)需求。大模型的出現(xiàn),為智能駕駛的發(fā)展注入了強(qiáng)大的動(dòng)力。它可以通過(guò)對(duì)大量駕駛數(shù)據(jù)的學(xué)習(xí)和分析,實(shí)現(xiàn)更加精準(zhǔn)的環(huán)境感知、路徑規(guī)劃和決策控制。例如,大模型可以實(shí)時(shí)識(shí)別道路上的障礙物、交通標(biāo)志和其他車(chē)輛,預(yù)測(cè)潛在的危險(xiǎn)情況,并及時(shí)做出相應(yīng)的駕駛決策,從而提高駕駛的安全性和舒適性。
在這樣的一種大趨勢(shì)下,筆者將針對(duì)智能駕駛場(chǎng)景,講一講大模型的應(yīng)用前景以及存在的瓶頸?。?!
2.自動(dòng)駕駛中的大模型
自動(dòng)駕駛領(lǐng)域的大模型主要涵蓋 感知(Perception)、決策(Decision-making)和控制(Control) 等多個(gè)方面,那么可以應(yīng)用于自動(dòng)駕駛中的大模型可以分為;
2.1 感知層(Perception)
感知層主要依賴 計(jì)算機(jī)視覺(jué)(CV)和多模態(tài)大模型(MMML),處理攝像頭、雷達(dá)、激光雷達(dá)等傳感器數(shù)據(jù)。
2.1.1 計(jì)算機(jī)視覺(jué)模型
1.Tesla Vision(特斯拉)
Tesla Vision 是 特斯拉(Tesla) 開(kāi)發(fā)的一套基于純視覺(jué)(Camera-only)的自動(dòng)駕駛感知系統(tǒng),完全放棄了激光雷達(dá)(LiDAR)和毫米波雷達(dá)(Radar),僅依靠攝像頭和 AI 算法進(jìn)行環(huán)境感知。該系統(tǒng)用于 Tesla Autopilot 和 FSD(Full Self-Driving),目前在 FSD V12 版本中已經(jīng)實(shí)現(xiàn)端到端 Transformer 訓(xùn)練。
Tesla Vision 具有以下核心特點(diǎn):
純視覺(jué)(Camera-only)感知:自 2021 年起,特斯拉宣布移除毫米波雷達(dá),完全依靠攝像頭。8 個(gè)攝像頭覆蓋 360° 視角,包括前、后、側(cè)方攝像頭?;?Transformer 的端到端 AI:Tesla Vision 早期使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行目標(biāo)檢測(cè)、分割和軌跡預(yù)測(cè)。 FSD V12 采用 端到端 Transformer 模型,用 BEV(Bird's Eye View)+ 視頻 Transformer 進(jìn)行感知。利用神經(jīng)網(wǎng)絡(luò)自動(dòng)標(biāo)注駕駛數(shù)據(jù),大規(guī)模訓(xùn)練 AI 駕駛模型。BEVFormer / Occupancy Network 將 2D 視覺(jué)數(shù)據(jù)轉(zhuǎn)化為 3D 環(huán)境模型,提高自動(dòng)駕駛感知能力。端到端學(xué)習(xí)(End-to-End Learning):早期 FSD 采用模塊化架構(gòu)(Perception → Planning → Control),F(xiàn)SD V12 采用端到端神經(jīng)網(wǎng)絡(luò),直接學(xué)習(xí)駕駛行為,無(wú)需手工編寫(xiě)規(guī)則。
Tesla Vision 的工作原理:
感知(Perception):通過(guò) 8 個(gè)攝像頭輸入視頻流。采用 Transformer 處理時(shí)序數(shù)據(jù),形成 BEV(俯視圖)Occupancy Network 預(yù)測(cè)周?chē)鷦?dòng)態(tài)環(huán)境(車(chē)輛、行人、紅綠燈等)。規(guī)劃(Planning):FSD V12 直接通過(guò) Transformer 計(jì)算駕駛路徑,無(wú)需手工編碼。AI 學(xué)習(xí)人類(lèi)駕駛行為,進(jìn)行轉(zhuǎn)向、加速、剎車(chē)等決策。控制(Control):車(chē)輛根據(jù) AI 計(jì)算的軌跡執(zhí)行駕駛動(dòng)作。特斯拉自研 AI 芯片 Dojo 提供超大規(guī)模計(jì)算能力。2.多模態(tài)大模型
在自動(dòng)駕駛領(lǐng)域,多模態(tài)大模型(Multimodal Large Models, MML)能夠融合多個(gè)傳感器數(shù)據(jù)(如攝像頭、激光雷達(dá)、毫米波雷達(dá)、IMU 等)來(lái)提升感知、決策和控制能力。以下是當(dāng)前主流的多模態(tài)大模型:
BEVFusion
BEVFusion 融合激光雷達(dá) + 攝像頭數(shù)據(jù),提升 3D 目標(biāo)檢測(cè)能力。嚴(yán)格來(lái)說(shuō),BEVFusion 本身并不算一個(gè)典型的大模型(LLM 級(jí)別的超大參數(shù)模型),但它可以被視為自動(dòng)駕駛中的大模型趨勢(shì)之一,特別是在感知層的多模態(tài)融合方向。目前主流的 BEVFusion 主要用于 3D 目標(biāo)檢測(cè),并非大語(yǔ)言模型(LLM)那樣的百億、千億級(jí)參數(shù)模型。例如,Waymo、Tesla 的 BEV 模型參數(shù)量遠(yuǎn)低于 GPT-4 級(jí)別的 AI 大模型。而且任務(wù)范圍局限于感知,主要用于將 2D 視覺(jué)(RGB 圖像)和 3D 激光雷達(dá)(LiDAR 點(diǎn)云)融合,輸出鳥(niǎo)瞰圖(BEV)用于目標(biāo)檢測(cè)、占用網(wǎng)絡(luò)等。不直接涉及自動(dòng)駕駛的決策和控制,不像 Tesla FSD V12 那樣實(shí)現(xiàn)端到端駕駛。
雖然 BEVFusion 不是超大參數(shù)模型,但它具備大模型的一些核心特征:
多模態(tài)(Multimodal)融合:融合 RGB 視覺(jué) + LiDAR + Radar,類(lèi)似 GPT-4V(圖像+文本)這種多模態(tài) AI 方向。Transformer 結(jié)構(gòu):新一代 BEVFusion 開(kāi)始采用 BEVFormer(Transformer 結(jié)構(gòu)),可擴(kuò)展成更大規(guī)模的計(jì)算模型。大規(guī)模數(shù)據(jù)驅(qū)動(dòng):需要超大規(guī)模的數(shù)據(jù)集(如 Waymo Open Dataset、Tesla 數(shù)據(jù)庫(kù))進(jìn)行訓(xùn)練,符合大模型訓(xùn)練模式。
Segment Anything Model (SAM)(Meta)+ DINO(自監(jiān)督學(xué)習(xí))
SAM 是由 Meta AI 發(fā)布的一種通用圖像分割模型,可以對(duì)任何圖像中的任何物體進(jìn)行分割,而無(wú)需特定的數(shù)據(jù)集進(jìn)行微調(diào)。DINO(基于 Vision Transformer 的自監(jiān)督學(xué)習(xí)方法) 由 Facebook AI(現(xiàn) Meta AI)提出,能夠在無(wú)監(jiān)督情況下學(xué)習(xí)圖像表示,廣泛用于物體檢測(cè)、跟蹤和語(yǔ)義分割。SAM 和 DINO 結(jié)合后,可以極大提升自動(dòng)駕駛中的 感知精度、泛化能力和數(shù)據(jù)效率。其結(jié)合方式可以總結(jié)為:
DINO 作為自監(jiān)督學(xué)習(xí)特征提取器,提供高質(zhì)量的視覺(jué)表示。SAM 作為通用分割工具,利用 DINO 提供的特征進(jìn)行高精度分割。結(jié)合 BEVFusion、Occupancy Network,增強(qiáng) 3D 語(yǔ)義感知。
其在自動(dòng)駕駛中的應(yīng)用可以是:
無(wú)監(jiān)督 3D 語(yǔ)義分割:DINO 預(yù)訓(xùn)練提取高質(zhì)量視覺(jué)特征,SAM 進(jìn)行目標(biāo)分割,提高語(yǔ)義理解能力。BEV 視角感知(鳥(niǎo)瞰圖增強(qiáng)):DINO 適應(yīng)跨尺度檢測(cè),SAM 用于 BEV 視角的動(dòng)態(tài)目標(biāo)分割。動(dòng)態(tài)物體跟蹤:結(jié)合 SAM 的強(qiáng)大分割能力,可更精準(zhǔn)跟蹤行人、騎行者等。2.2 規(guī)劃與決策(Decision-making & Planning)
這一層面涉及強(qiáng)化學(xué)習(xí)、端到端 Transformer 以及大語(yǔ)言模型(LLM)用于自動(dòng)駕駛策略決策
2.2.1 強(qiáng)化學(xué)習(xí)與決策模型
自動(dòng)駕駛的決策層需要處理復(fù)雜的動(dòng)態(tài)環(huán)境,包括車(chē)輛行駛策略、避障、變道、紅綠燈響應(yīng)等。強(qiáng)化學(xué)習(xí)(RL, Reinforcement Learning)和決策大模型(LLM, Large Decision Models)已成為關(guān)鍵技術(shù),能夠?qū)W習(xí)人類(lèi)駕駛員的策略并在不同交通場(chǎng)景下進(jìn)行智能決策。其基本框架為馬爾可夫決策過(guò)程(MDP),主要的強(qiáng)化學(xué)習(xí)方法有:
其應(yīng)用實(shí)例有:
Waymo & Tesla:采用 DDPG/PPO 進(jìn)行端到端駕駛策略優(yōu)化。Uber ATG:使用 DQN 進(jìn)行交通信號(hào)識(shí)別和決策。2.2.2 端到端 Transformer
端到端(End-to-End, E2E)Transformer 在自動(dòng)駕駛中融合感知、預(yù)測(cè)、規(guī)劃,實(shí)現(xiàn)端到端學(xué)習(xí),擺脫傳統(tǒng)模塊化架構(gòu)的局限。Tesla FSD V12 采用 Vision Transformer(ViT)+ GPT 進(jìn)行端到端自動(dòng)駕駛,而 GriT(Grid Transformer) 則專(zhuān)注于端到端路徑規(guī)劃,提供更高效的軌跡優(yōu)化。
1.Vision Transformer (ViT) + GPT
Tesla FSD V12 采用 Vision Transformer (ViT) + GPT 結(jié)構(gòu),實(shí)現(xiàn)端到端駕駛控制,直接從攝像頭輸入生成方向盤(pán)轉(zhuǎn)角、油門(mén)、剎車(chē)等控制信號(hào)。詳細(xì)見(jiàn)前文。
2.GriT( Grid Transformer)
GriT(Grid Transformer) 是一種基于 Transformer 的路徑規(guī)劃模型,能夠在復(fù)雜環(huán)境下進(jìn)行高效軌跡規(guī)劃。其核心思想為:
采用 柵格(Grid-based)方法 進(jìn)行端到端軌跡預(yù)測(cè)。適用于 動(dòng)態(tài)環(huán)境,如城市道路、高速公路、交叉路口等。結(jié)合 Transformer 結(jié)構(gòu)進(jìn)行全局路徑優(yōu)化,避免局部最優(yōu)問(wèn)題。
GriT 主要結(jié)構(gòu)為:
輸入(多模態(tài)信息)
攝像頭(前視 & 側(cè)視)、LiDAR 點(diǎn)云(可選)、HD 地圖信息。目標(biāo)檢測(cè)(行人、車(chē)輛、紅綠燈)。車(chē)輛當(dāng)前狀態(tài)(速度、加速度、方向等)。Transformer 編碼(Grid-based Representation)采用 柵格化(Grid-based Representation),將環(huán)境信息編碼為網(wǎng)格結(jié)構(gòu)。使用 Self-Attention 計(jì)算,學(xué)習(xí)全局路徑規(guī)劃策略。
軌跡預(yù)測(cè) & 規(guī)劃
通過(guò) Transformer 計(jì)算最優(yōu)駕駛軌跡。適應(yīng)不同交通狀況(紅綠燈、變道、避障等)。
GriT 在自動(dòng)駕駛中的應(yīng)用
復(fù)雜路口決策
GriT 能夠預(yù)測(cè)多個(gè)可能路徑,并選擇最優(yōu)軌跡,避免碰撞。
動(dòng)態(tài)避障
在高速公路、城市駕駛場(chǎng)景下,實(shí)時(shí)避讓前方障礙物或慢速車(chē)輛。
路徑全局優(yōu)化
傳統(tǒng)路徑規(guī)劃方法(如 A*、Dijkstra)易陷入局部最優(yōu),而 GriT 通過(guò) Transformer 提高全局規(guī)劃能力。
發(fā)展趨勢(shì)
ViT + GPT 端到端感知 & 規(guī)劃進(jìn)一步優(yōu)化
結(jié)合更多傳感器數(shù)據(jù)(如雷達(dá))提升安全性。提高自監(jiān)督學(xué)習(xí)能力,減少數(shù)據(jù)標(biāo)注需求。
GriT 結(jié)合 BEV,提升軌跡規(guī)劃能力
未來(lái) GriT 可能與 BEV 結(jié)合,提高 3D 規(guī)劃能力。
提高對(duì)動(dòng)態(tài)環(huán)境的適應(yīng)性,優(yōu)化駕駛策略。
多智能體 Transformer 強(qiáng)化學(xué)習(xí)
未來(lái)可訓(xùn)練多車(chē)輛協(xié)同駕駛,提高車(chē)隊(duì)自動(dòng)駕駛能力。
結(jié)合 RL(強(qiáng)化學(xué)習(xí))優(yōu)化自動(dòng)駕駛策略。
2.3 控制層(Control)
控制層是自動(dòng)駕駛的核心模塊之一,負(fù)責(zé)將感知和規(guī)劃結(jié)果轉(zhuǎn)換為具體的車(chē)輛控制指令(方向盤(pán)、油門(mén)、剎車(chē))。近年來(lái),大模型(如 Transformer、RL-based Policy Network)正在革新自動(dòng)駕駛控制層,使其更智能、更平滑、更適應(yīng)復(fù)雜環(huán)境。
DeepMind MuZero:無(wú)模型強(qiáng)化學(xué)習(xí)框架,可用于動(dòng)態(tài)駕駛控制優(yōu)化。Nvidia Drive Orin / Thor:專(zhuān)用 AI 芯片結(jié)合 Transformer 網(wǎng)絡(luò),用于高精度自動(dòng)駕駛控制。2.4 端到端自動(dòng)駕駛大模型
部分大模型實(shí)現(xiàn)了從感知到控制的端到端學(xué)習(xí):
OpenPilot(Comma.ai):開(kāi)源自動(dòng)駕駛系統(tǒng),基于 Transformer 訓(xùn)練的行為克隆模型。DriveGPT(類(lèi)似 AutoGPT 的自動(dòng)駕駛 LLM):將 LLM 應(yīng)用于駕駛策略。
目前,特斯拉 FSD V12 是最先進(jìn)的端到端 Transformer 自動(dòng)駕駛大模型。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。