期刊VIP學術指導 符合學術規范和道德
保障品質 保證專業,沒有后顧之憂
摘 要:在日常出行中,乘客經常會將一些重要物品遺落在出租車后座上,而司機往往因為忽視使乘客出現損失。為對車內遺失物體進行檢測,提出一種改進的SSD目標檢測模型。在主干網絡部分引入路徑增強的特征金字塔網絡(FPN),稱為PA-SSD。將PA-SSD應用于常見遺失物品檢測實驗,結果表明,該算法檢測速度為12fps,在驗證集上的mAP為98.6%。基于PA-SSD的檢測模型能高效且準確地識別乘客遺失物體,方便通知領取,減少乘客不必要的損失。
關鍵詞:目標檢測;卷積神經網絡;SSD;FPN;路徑增強
0 引言
隨著深度學習的發展,基于深度學習的目標檢測模型研究成為熱點。Firshick[1]為解決R-CNN速度較慢問題提出Fast R-CNN,使特征提取過程可共享,加快了檢測速度,但提取RoI仍然會消耗大量時間;Ren等[2]提出Faster R-CNN并引入RPN,將獲取提議區域過程放入整個網絡一起訓練以加快檢測速度;Dai等[3]提出R-FCN引入位置敏感得分圖使RoI具有較明確的位置信息,減輕Head結構計算量從而提高檢測速度;Redmon等[4]提出在YOLO引入網格思想,在網格中做預測;Liu等[5]在SSD中基于不同尺度特征圖生成錨框進行預測;Lin等[6]提出RetinaNet引入Focal loss作為分類損失函數,避免樣本不平衡的影響;佘顥等[7]引入組歸一化和TReLU激活函數對SSD進行改進;沈新烽等[8]使用輕量級MobileNetV3-Large作為SSD主干網絡,并利用FPN[9]提升對小物體檢測效果;韓文軒等[10]采用深度可分離卷積代替卷積層加快SSD檢測速度。
以上文獻均沒有考慮主干網絡輸出的較深層特征圖位置信息不明確這一因素。本文借鑒PANet[11]思想,基于Mask R-CNN[12]框架進行改進,在主干網絡FPN結構上添加一條自底向上的路徑增強分支,用于加強深層特征圖位置信息,針對PANet不便于實時性檢測問題提出PA-SSD。在遺失物體圖像數據集上進行訓練和測試,結果顯示mAP較SSD檢測率有顯著提升。
1 SSD簡介
1.1 SSD整體框架
SSD整體框架由一個主干網絡和若干個下采樣模塊連接而成,如圖1所示。使用VGG16[13]作為主干網絡只輸出一個特征圖,然后通過若干下采樣模塊將特征圖尺寸減半生成多尺度特征圖。因此,圖1中越靠近頂部的特征圖尺寸越小,像素感受野越大,越適合檢測尺寸較大目標。針對不同尺度特征圖分別基于錨框機制進行分類以及邊界框偏移量回歸,使檢測器適應不同尺度物體。
1.2 損失函數
目標檢測任務分為分類和邊界框偏移量回歸,最終損失函數定義為兩者各自損失函數的加權和。SSD損失函數如下:
式(1)為模型最終損失函數,是回歸損失和分類損失兩部分的加權和。其中[N]代表錨框數量,[Lconf(x,c)]和[Lloc(x,l,g)]分別代表分類和回歸損失,[x]為錨框,[c]為置信度,[l]為預測框,[g]為真實框,[α]代表權重系數。式(2)是回歸損失,使用光滑L1損失,只對正類錨框計算損失,[i,j,p]分別代表錨框、真實框和類別索引,[p=0]代表背景類,[m∈{cx,cy,w,h}]代表4個邊界框偏移量,[xpij={0,1}],取1時代表第[i]個錨框與第[j]個真實框交并比大于設定閾值,即關于類別[p]匹配,取0時即不匹配,不計算損失。式(3)是分類損失,為多元交叉熵損失,[cpi]代表第[i]個錨框預測為類別[p]的概率。
2 PA-SSD
使用如ResNet[14]等全卷積神經網絡結構作為主干網絡,輸出特征圖位置信息較少,通過下采樣模塊后生成的深層特征圖包含的位置信息更少,無法準確預測目標邊界框,這是SSD存在的主要問題。針對該問題,本文結合FPN以及路徑增強方法對SSD進行改進,提出PA-SSD,使主干網絡輸出的多尺度特征圖同時具有較高的位置信息和語義信息,從而提升檢測精度。
2.1 FPN簡介
深度卷積神經網絡往往輸出具有明確語義信息的特征圖,但其位置信息不明確。FPN在基礎網絡上引入特征金字塔結構提取多尺度特征圖,采用特征融合方式使得淺層特征圖也具有較明確的語義信息,其結構如圖2所示,包括自底向上分支、自頂向下分支以及橫向連接3個部分。自底向上分支采用基礎卷積神經網絡結構,以ResNet為例,輸出特征圖分別為[C1,C2,C3,C4,C5],C1由于尺度過大不參與特征融合。橫向連接利用1×1的卷積將這些特征圖通道數統一到256,得到[C2,C3,C4,C5]。自頂向下分支即特征融合計算,C5即M5,上采樣后與C4'作逐元素求和得到M4,同理得到M3和M2。為消除混疊效應還需要將[M2,M3,M4,M5]通過3×3卷積得到的[P2,P3,P4,P5]作為FPN輸出。FPN結合錨框機制適用于檢測各種尺寸目標,但FPN輸出的頂層特征圖位置信息并未得到加強,所以檢測器對大物體位置回歸不夠準確。
2.2 基于路徑增強FPN的主干網絡
PANet為解決FPN深層特征圖位置信息不明確問題引入基于路徑增強的FPN作為主干網絡,結構如圖3所示。FPN輸出[P2,P3,P4,P5],此時深層特征圖位置信息仍然很弱,所以在FPN右側添加一條自底向上的特征融合分支。P2即N2,N2通過步幅為2的3×3卷積將尺寸減半后,與P3作逐元素求和后再經過一個步幅為1的3×3卷積得到N3,同理得到N4和N5。本文為了檢測更大的目標將N5通過一個最大池化層將尺寸減半得到N6。綜上,基于路徑增強的FPN由于進行了兩次特征融合,使得特征圖同時具備較明確的語義信息與位置信息,能更好地執行目標檢測任務。
2.3 PA-SSD整體框架
PA-SSD目標檢測流程如圖4所示。為減少計算量,主干網絡輸出的N2不參與預測。由于FPN結構直接輸出多尺度特征圖,所以不需要額外的尺寸減半模塊和全局平均池化層,直接基于[N3,N4,N5,N6]生成錨框并基于這些錨框進行分類與偏移量回歸。
PA-SSD的Head結構包含類別預測層和邊界框回歸層,損失函數與SSD保持一致。設預測物體類別數為C,加上背景類,每個錨框將預測C+1個類別,則對于一個高、寬分別為h、w的特征圖,每個單元生成a個錨框,一共生成ahw個錨框。分類預測層利用卷積層通道輸出類別預測,將[N3,N4,N5,N6]分別進行1×1的卷積使通道數變為a(C+1),使輸出和輸入與特征圖上每個點的空間坐標一一對應,最后使用Softmax函數作為激活函數輸出類別置信度。邊界框回歸層設計方法同類別預測層設計類似,同樣對[N3,N4,N5,N6]分別做1×1卷積。由于每個錨框需要預測4個偏移量,所以輸出通道數設為4a。
3 實驗結果與分析
3.1 數據集
本文使用自制數據集,包含1 000張圖像,其中訓練集800張,驗證和測試集各100張。數據集包含6類容易遺漏的物體,分別為筆記本電腦、身份證、水杯、手機、背包和錢包。加載數據集時需將輸入圖片尺寸轉換為1 024× 1 024×3,批量大小為4,所以一個批量輸入形狀為(4,3, 1 024,1 024),標簽形狀為(批量大小,n,5),n代表單個圖像最多含有的邊界框個數,本文設置n=10,而5代表物體類別及4個偏移量。
3.2 實驗流程
PA-SSD損失函數與SSD保持一致,主干網絡使用ResNet50基于ImageNet預訓練,整個模型使用SGD優化器進行訓練,基礎學習率設置為1e-3,隨迭代次數逐漸降低,權重衰減系數設置為5e-4,共迭代20 000次。訓練流程如圖5所示。
將SSD、DSSD[15]、YOLO V3[16]以及本文提出的PA-SSD在數據集上進行訓練,并使用均值平均精確率(mean Average Precision, mAP)對4種檢測器進行評估對比,mAP指每一類物體對應P-R曲線下的面積平均值,能夠較好顯示檢測器質量。
3.3 實驗結果
4種檢測器在遺失物體數據集上對比實驗如表1所示,分別記錄不同檢測器的主干網絡結構、mAP以及識別速度。
如表1所示,PA-SSD雖然較SSD和YOLOV3犧牲了一些識別速度,但是精度得到顯著提高,且精度和速度都優于DSSD,證明PA-SSD在檢測遺失物體精度上優于主流一階段目標檢測框架。
為了移除檢測器生成的多余邊界框,在測試階段使用非極大值抑制(non-maximum suppression,NMS)對檢測器結果進行后處理,選取測試集中某張測試圖片,其預測結果如圖6所示,可以看到即使在光線較暗的場景下,PA-SSD也能準確識別出遺漏的物體。
4 結語
本文基于SSD提出一種PA-SSD目標檢測模型,主干網絡部分引入自底向上路徑增強的FPN,摒棄了下采樣模塊和全局平均池化層獲取多尺度特征圖方式,直接基于主干網絡輸出多尺度特征圖生成錨框,并進行分類和邊界框回歸。使用本文模型在遺失物數據集上進行訓練實驗,結果表明,PA-SSD較主流一階段的檢測模型具有更高的mAP。但本文自制的數據集只包含6個類別,在更多類別上的檢測結果未知,泛化能力有待增強,需在后續工作中繼續優化。
參考文獻:
[1] GIRSHICK R. Fast R-CNN[C]. Proceedings of the IEEE conference on computer vision and pattern recognition, 2015: 1440-1448.
[2] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]. Advances in Neural Information Processing Systems,2015: 91-99.
[3] DAI J, LI Y, HE K, et al. R-FCN: object detection via region-based fully convolutional networks[C]. Advances in Neural Information Processing Systems,2016: 379-387.
[4] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:779-788.
[5] LIU W, ANGUELOV D, ERHAN D, et al. Ssd: single shot multibox detector[C]. European Conference on Computer Vision. Springer, Cham, 2016:21-37.
[6] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. arXivpreprint:2017,1708(2),2002-2011.
[7] 佘顥,吳伶,單魯泉. 基于SSD網絡模型改進的水稻害蟲識別方法[J]. 鄭州大學學報(理學版): 2019,26(5):1-6.
[8] 沈新烽,姜平,周根榮. 改進SSD算法在零部件檢測中的應用研究[J]. 計算機工程與應用,2011,25(4):1-10.
[9] LIN TY, DOLLAR P, GIRSHICK R,et al. Feature pyramid networks for object detection[J]. arXiv preprint, 2016,1612(1):31-44.
[10] 韓文軒,阿里甫·庫爾班,黃梓桐. 基于改進SSD算法的遙感影像小目標快速檢測[J]. 新疆大學學報(自然科學版),2019,18(11):1-7.
[11] LIU S,?QI L,?QIN H, et al.Path aggregation network for instance segmentation[J]. arXiv preprint, 2018,18(3):15-34.
推薦閱讀:工業建筑雜志是網絡首發期刊嗎