BEV全稱Bird'sEyeView,即鳥瞰圖,該算法旨在將多傳感器收集的圖像信息投射至統一3D空間,再輸入至單一大模型進行整體推理。相較于傳統的攝像頭圖像,BEV提供了一個更貼近實際物理世界的統一空間,為后續的多傳感器融合以及規劃控制模塊開發提供了更大的便利和更多的可B
大模型是當前AI領域最為火熱的前沿趨勢之一,可賦能自動駕駛領域的感知、標注、仿真訓練等多個核心環節。在感知層,以特斯拉為首,"BEV+Transformer"范式已開始在自動駕駛領域得到廣泛使用,可有效提升感知精確度,利于后續規劃控制算法的實施,促進端到端自動駕駛框架的發展。 BEV全稱Bird'sEyeView,即鳥瞰圖,該算法旨在將多傳感器收集的圖像信息投射至統一3D空間,再輸入至單一大模型進行整體推理。相較于傳統的攝像頭圖像,BEV提供了一個更貼近實際物理世界的統一空間,為后續的多傳感器融合以及規劃控制模塊開發提供了更大的便利和更多的可能。具體來說,BEV感知的優勢在于:1)統一了多模態數據處理維度,將多個攝像頭或雷達數據轉換至3D視角,再做目標檢測與分割等任務,從而降低感知誤差,并為下游預測和規劃控制模塊提供更豐富的輸出;2)實現時序信息融合,BEV下的3D視角相較于2D信息可有效減少尺度和遮擋問題,甚至可通過先驗知識"腦補"被遮擋的物體,有效提高自動駕駛安全性;3)感知和預測可在統一3D空間中實施,通過神經網絡直接完成端到端優化,可有效降低傳統感知任務中感知與預測串行的誤差累積。 Transformer的注意力(Attention)機制可幫助實現2D圖像數據至3DBEV空間的轉化。Transformer是GoogleBrian團隊在2017年提出的神經網絡模型,起初用于機器翻譯,隨著技術的發展開始進軍圖像視覺領域,目前已成功涉足分類、檢測和分割三大圖像問題。據汽車之心微信公眾號介紹,傳統CNN模型的原理是通過卷積層構造廣義過濾器,從而對圖像中的元素進行不斷地篩選壓縮,因此其感受域一定程度上取決于過濾器的大小和卷積層的數量。隨著訓練數據量的增長,CNN模型的收益會呈現過飽和趨勢。而Transformer的網絡結構在嫁接2D圖像和3D空間時借鑒了人腦的注意力(Attention)機制,在處理大量信息時能夠只選擇處理關鍵信息,以提升神經網絡的效率,因此Transformer的飽和區間很大,更適宜于大規模數據訓練的需求。在自動駕駛領域,Transformer相比于傳統CNN,具備更強的序列建模能力和全局信息感知能力,目前已廣泛用于視覺2D圖像數據至3D空間的轉化。 除感知層外,大模型還有望顯著提升后端訓練中數據清洗標注的效率,并助力生成新場景以賦能仿真訓練。訓練模型在收集到傳感器傳送回的圖像數據后,需先對數據進行清洗,再對其中的車輛、行人、道路標識、車道線等元素進行標注。相較于此前的人工標注,大模型可以大幅提升工作效率。理想汽車創始人李想在中國電動汽車百人會論壇(2023)的演講中表示,此前理想一年要做大概1000萬幀自動駕駛圖像的人工標定,年成本接近1億元,但使用軟件2.0大模型進行自動化標定后,效率是人的1000倍。毫末智行也2023年4月第八屆AIDAY上表示,其最新推出的DriveGPT可將交通場景圖像的標注費用從行業平均約5元/張降至約0.5元/張。Meta最新的圖像分割模型SAM(SegmentAnythingModel)在對圖像和視頻中的物體進行識別分割時展現出了強大的能力,且具有零樣本性能,即能夠對從未訓練過的圖片進行精準分割,未來也有望賦能自動駕駛訓練所需的圖像數據積累。 在"BEV+Transformer"趨勢下,算法復雜度、數據規模以及模型參數均呈指數級提升,推動自動駕駛芯片向著大算力、新架構以及存算一體等方向演進。 1、大算力: 向數百TOPS算力演進。傳統L1/L2輔助駕駛所需處理的數據量小且算法模型相對簡單,因此以Mobileye為代表的單目視覺+芯片算法強耦合的一體機方案即可滿足需求。但領航功能作為高階輔助駕駛的代表,需要"更強算力+軟硬件解耦的芯片+域控制器"來滿足海量數據處理與后續持續OTA迭代的需求。高速領航開始向20萬以下車型滲透,15-30TOPS可滿足基本需求,但若想要"好用"或需要30-80TOPS。城區領航的場景復雜程度和技術實現難度更高,目前普遍需要搭載激光雷達,芯片以英偉達Orin、華為MDC和地平線J5為主,算力配置普遍超200TOPS。而在應用"BEV+Transformer"技術后,多傳感器前融合以及2D至3D空間的轉化需要AI芯片具備更強的推理能力,因此也需要比以往更大的算力支撐,包括更高的AI算力、CPU算力和GPU算力。 2、新架構: 加強并行計算能力和浮點運算能力。相較于CNN/RNN,Transformer具有更強的并行計算能力,可加入時間序列矢量,其數據流特征有顯著差別,浮點矢量矩陣乘法累加運算更適合采用BF16精度。Transformer允許數據以并行的形式進行計算,且保留了數據的全局視角,而CNN/RNN的數據流只能以串行方式計算,不具備數據的全局記憶能力。傳統AI推理專用芯片大多針對CNN/RNN,并行計算表現不佳,且普遍針對INT8精度,幾乎不考慮浮點運算。因此想要更好適配Transformer算法,就需要將AI推理芯片從硬件層面進行完整的架構革新,加入專門針對Transformer的加速器,或使用更強的CPU算力來對數據整形,這對芯片架構、ASIC研發能力,以及成本控制都提出了更高的要求。以特斯拉、地平線為代表的廠商均"重ASIC(即AI推理專用芯片),輕GPU"。特斯拉引領BEV+Transformer路線,以專用NPU(神經網絡處理器)承擔AI運算,在NPU設計之初便進行了針對性優化。而地平線等后來者或需要在下一代芯片中對AI推理芯片架構進行針對性優化。 3、存算一體: SoC芯片需配置高帶寬存儲器(HBM)或SRAM,并加速向存算一體靠攏,解決大算力下的數據吞吐量瓶頸。模型越大,內存對AI加速器就越重要,以頻繁地讀取權重矩陣或訓練好的模型參數。據佐思汽研介紹,Transformer中的權重模型超過1GB,對比傳統CNN的權重模型通常不超過20MB。模型參數越大,就需要更高的帶寬,一次性讀出更多參數。存算一體可分為近存計算(PNM)、存內處理(PIM)以及存內計算(CIM),存內計算則接近存算一體,當前PNM已廣泛用于高性能芯片,即采用HBM堆疊,2.5D封裝,從而與CPU集成,而PIM和CIM仍處在發展中。以特斯拉FSDSoC為例,其采用總帶寬為68GB/s的8顆LPDDR4內存,而集成在NPU中的SRAM可達到32MBL3緩存,帶寬達2TB/s,遠超市面上同類芯片。而據汽車之心微信公眾號,特斯拉在最新HW4.0上的二代FSDSoC上使用了16顆GDDR6,在內存用料上繼續引領行業。
欲了解更多中國智能駕駛行業的未來發展前景,可以點擊查看中研普華產業院研究報告《2023-2028年中國智能駕駛行業市場深度全景調研及投資前景分析報告》。
關注公眾號
免費獲取更多報告節選
免費咨詢行業專家
2023-2028年中國智能駕駛行業深度分析及投資前景預測報告
智能駕駛即利用人工智能、視覺計算、雷達、監控裝置和全球定位系統協同合作,讓汽車能夠部分或全面感知周圍環境并進行自動安全地駕駛,有效彌補了人類駕駛員存在的缺陷。國際汽車工程師協會把汽...
查看詳情
我國算力產業的發展情況近期,工業和信息化部聯合有關部門印發了《算力基礎設施高質量發展行動計劃》,大家都很關注,...
消費電子一般指消費電子產品,是指圍繞著消費者應用而設計的與生活、工作娛樂息息相關的電子類產品,最終實現消費者自...
作為鞋類市場近些年興起的一個細分領域,老人鞋一直呈快速發展態勢。老人鞋,也叫老年鞋,是近些年鞋類市場上興起的一...
船舶工業是現代綜合性產業,也是軍民結合的戰略性產業,能夠為海洋開發、水上交通運輸、能源運輸、國防建設等提供必要...
中國期貨業協會最新數據顯示,5月全國期貨市場成交量為8.25億手,成交額為50.37萬億元,同比分別增長75.16%和25.60%...
集裝箱租賃是指集裝箱租賃公司與承租人,一般為海運班輪公司,鐵路、公路運輸公司等,簽訂協議,用長期或短期的方式把...
微信掃一掃