期刊VIP學術(shù)指導(dǎo) 符合學術(shù)規(guī)范和道德
保障品質(zhì) 保證專業(yè),沒有后顧之憂
來源:期刊VIP網(wǎng)所屬分類:計算機網(wǎng)絡(luò)時間:瀏覽:次
摘 要:在常規(guī)的車輛目標檢測中,YOLO,SSD,RCNN等深度模型都獲得了較好的檢測效果,但是在無人駕駛系統(tǒng)中,車輛的速度、方向、相對距離等因素對于系統(tǒng)來說十分重要,所以采用二維車輛檢測對于駕駛場景的理解還遠遠不夠。激光點云數(shù)據(jù)蘊含著豐富的三維環(huán)境信息,融合點云數(shù)據(jù)和深度網(wǎng)絡(luò)的三維車輛檢測已成為未來的發(fā)展方向。文章給出了一種基于點云網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的三維車輛檢測方法,首先,使用CRC和輸入尺寸有關(guān)的SDP技術(shù)來提高車輛檢測的準確性;其次,采用點云網(wǎng)絡(luò)結(jié)構(gòu)(Pointnet)來處理點云數(shù)據(jù),實現(xiàn)三維目標檢測,研究表明設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)在檢測精度上有著較大的優(yōu)勢。
關(guān)鍵詞:車輛檢測;點云網(wǎng)絡(luò);卷積神經(jīng)網(wǎng)絡(luò);拒絕分類器
1 車輛檢測的相關(guān)算法
近年來,由于深度學習技術(shù)的興起,機器視覺與人工智能有了快速的發(fā)展,特別是智能汽車領(lǐng)域,通過在車輛中安裝視覺傳感器使駕駛變得越來越安全以及智能化,而無人駕駛技術(shù)更是得到了工業(yè)界與學術(shù)界的高度關(guān)注。
車輛檢測是無人駕駛感知系統(tǒng)的關(guān)鍵環(huán)節(jié),大多數(shù)的交通事故發(fā)生在車車之間,傳統(tǒng)的二維車輛識別技術(shù)僅能提供方位信息,并不能滿足無人駕駛系統(tǒng)對車輛檢測的需求,車輛的空間位置、速度等因素對后期的控制決策起到極為重要的作用。
因此,需要激光雷達等傳感器提供三維點云信息、融合處理三維點云信息以及二維圖像信息成為車輛檢測的關(guān)鍵技術(shù)。目前,深度學習已被證明是目標檢測中最為有效的方法,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[1-2]更是在圖像處理領(lǐng)域中得到了廣泛的應(yīng)用,例如圖像的分類、檢測、分割等。
但是CNN也存在一些明顯的問題,最為突出的就是要對海量數(shù)據(jù)進行大量卷積運算需要消耗較大的計算量,為了提高目標檢測的速度,近些年部分學者又提出了Fast RCNN[3]和空間金字塔網(wǎng)絡(luò)(Spatial Pyramid Pooling Net)[4],在Fast RCNN中,僅在整幅圖像中進行一次卷積操作,其比R-CNN[5]通過共享卷積層來說提高了運算效率。Fast RCNN已經(jīng)實現(xiàn)了分別在訓練和測試階段的加速。
為了進一步提升速度,其他的深度神經(jīng)網(wǎng)絡(luò)模型也被提出,SSD[6]采用了一個CNN網(wǎng)絡(luò)來檢測,不過其使用了多尺度特征圖,并設(shè)置了先驗框。SSD借鑒了Fast R-CNN的錨點方法,對每一個候選單元設(shè)置不同大小的檢測框,取得了較好的檢測效果。YOLO[7]是另外一種快速單階段目標檢測方法,與R-CNN類型的模型有著明顯的不同,不再是將目標檢測視為分類問題,而是作為一種回歸問題,可以直接從圖像得到目標邊界框以及類別的判斷。
YOLO擁有非常快的速度優(yōu)勢,并且是直接在圖像中進行訓練,這使得其自然包含有目標的上下文信息。YOLO模型相比于R-CNN模型有著較大的速度優(yōu)勢,但是精度上則不及大多主流的深度網(wǎng)絡(luò)模型。
三維車輛檢測可以提供更多的目標信息,目前已有少量研究成果發(fā)表,把這些方法分為3類:(1)基于前景視角圖像的方法,通過單幅RGB圖像和形狀或遮擋樣式來推斷目標三維邊界框[8]。利用深度數(shù)據(jù)集合CNN網(wǎng)絡(luò)來對二維目標檢測的結(jié)果三維化[9]。(2)基于鳥瞰圖的方法,MV3D[10]將LIDAR點云投射到鳥瞰圖并采用RPN[11]網(wǎng)絡(luò)來預(yù)測目標三維邊界框,但是該方法在檢測小物體時存在較大誤差,例如行人以及自行車都不是很準確。(3)基于3D點云的方法,通過支持向量機(Support Vector Machine,SVM)從點云數(shù)據(jù)中提取幾何特征,最后使用滑動窗口實現(xiàn)三維目標檢測[12]。將整個場景的點云轉(zhuǎn)換為體積網(wǎng)格,并使用3D-CNN網(wǎng)絡(luò)進行目標特征提取和檢測。該方法使用到了3D卷積,其計算量十分龐大[13]。
本文采用了直接處理點云數(shù)據(jù)的PointNet網(wǎng)絡(luò)[14],該網(wǎng)絡(luò)結(jié)構(gòu)簡單,但是卻可以高效處理點云數(shù)據(jù)。同時,本文設(shè)計了一種基于深度點云網(wǎng)絡(luò)的目標檢測方法,先采用卷積神經(jīng)網(wǎng)絡(luò)快速、準確地檢測車輛候選區(qū)域,再采用PointNet網(wǎng)絡(luò)實現(xiàn)三維實例分割,利用逐層級聯(lián)的拒絕分類器(Cascaded Rejection Classifiers,CRC)和與輸入大小有關(guān)的池化層(Scale Dependent Pooling,SDP)來提高目標車輛的檢測結(jié)果。
2 激光雷達與點云數(shù)據(jù)
激光雷達屬于光電技術(shù),會向周圍物體發(fā)射激光束,再接受反射的光,通過反射的時間差得到物體的距離信息。激光雷達得到距離信息后再結(jié)合發(fā)射的角度,由空間幾何原理來推測到物體的位置與形狀。這個過程中,激光幾乎不受到環(huán)境因素的干擾,激光雷達的工作范圍可達100 m以上。
激光雷達采用激光射線而非無線電雷達的電磁波,因此擁有更短的波長,對于獲取目標的距離以及形狀都會有更大的優(yōu)勢,精度可以達到厘米級。激光雷達通常包括3部分:(1)激光發(fā)射器。(2)掃描與光學部件,可感知距離、時間以及角度信息。(3)感光部件,用來檢測反射光的光強。
現(xiàn)有的無人駕駛車輛中已廣泛安裝了激光雷達,在車輛行駛的過程中,激光雷達會按照恒定的角速度進行勻速轉(zhuǎn)動并發(fā)射激光,會獲得360°全角度的環(huán)境信息,繼而可由距離、時間以及角度三者信息再加上激光雷達的位置信息,推導(dǎo)出反射點的三維坐標。激光雷達旋轉(zhuǎn)360°獲得的反射點坐標集合就叫點云,工作原理如圖1所示。激光雷達距離傳感器可以比普通攝像機更直接地得到三維信息,可以在識別分類的過程中提供三維形狀的信息。
但是激光雷達所形成的三維點云一般都比較稀疏,空間的分辨率有限,所以缺乏目標的外觀與紋理信息。本文結(jié)合二維視覺目標檢測以及三維空間定位的各自優(yōu)勢,先利用RGB圖像檢測網(wǎng)絡(luò)對目標進行候選估計,再利用點云網(wǎng)絡(luò)對候選區(qū)域處理,最終完成三維車輛檢測任務(wù)。
作者:王鵬 葉子豪 孫銳