2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

復雜背景下昆蟲圖像的快速分割與識別

來源:期刊VIP網所屬分類:園林學時間:瀏覽:

  摘要:昆蟲圖像分割是昆蟲圖像的識別與鑒定的重點和難點。目前,昆蟲分割算法速度慢、過程復雜且大多數只針對于單一背景圖像。為了更準確高效地實現昆蟲圖像的前景背景圖像分離,提出一種基于逐像素聚類的端對端的昆蟲圖像分割方法,能夠同時實現復雜背景下的昆蟲圖像分割與昆蟲種類識別。采用覆蓋5個昆蟲目級階元的37種實際場景下拍攝的昆蟲圖像作為研究對象,首先通過試驗確定所提模型的最優參數設置,選擇ResNet101作為分割模型的主干特征提取網絡,在IoU取0.50時,其掩膜分支平均準確度均值、定位平均準確度均值及平均識別誤差率分別為93.15%、95.06%和12.12%,分割每張昆蟲圖像僅需0.080 s,所提模型能夠同步實現復雜背景下昆蟲目標與背景的快速準確分割并進行分類。

  關鍵詞:昆蟲圖像;復雜背景;實時性;實例分割;識別分類

  作者:陳冬梅

  通信作者:吳開華

  龐大的昆蟲家族是大自然生物鏈中的重要一環,占據著節肢動物門的最大一綱。這些生物形態各異,數量驚人,分布又極其廣泛,迄今發現的昆蟲有120多萬種,占整個動物界種類的80%左右[1]。其中,絕大多數昆蟲以植物為寄主,通過取食作物獲取營養,會造成農作物的產量和品質顯著降低,成為制約農業生產的重要因素之一[2]。因此,研究昆蟲的規律,找出其中可供利用的特性,對于農業發展,尤其是害蟲防治策略的設計和益蟲的保護與利用都具有十分重要的意義。在昆蟲研究中,昆蟲的識別既是昆蟲研究和害蟲防治的基礎,也是昆蟲研究的重要內容之一[3]。

  傳統的昆蟲識別是通過分類學專家或具有昆蟲分類知識的技術人員對昆蟲進行種類的鑒定[4]。但現有的分類學專家和掌握分類的技術人員無論在分布還是在數目上均難以滿足時下正呈現擴大傾向的各類實際場景需求。同時,昆蟲圖像識別由于昆蟲本身紋理豐富而被視為一類相對困難的圖像細粒度識別問題。當識別種類及數量較多時,群體所呈現出的種間相似性、種內多樣性以及不同姿態的差異會進一步增加數據復雜度,此類圖像的區分信息更多地集中在像素層面,用人為構建并篩選的特征對圖像進行表達很容易丟失其中的細節[5]。

  信息技術的快速發展使得計算機代替人腦進行判別的方法成為了可能,以計算機為基礎的昆蟲自動識別方法可以處理最常見的昆蟲圖像數據,先將采集的昆蟲圖像進行圖像處理和背景前景分離,再使用圖像識別方法進行類別分析。目前,基于計算機的昆蟲圖像分割主要依賴于傳統圖像分割方法,如基于閾值的分割方法、基于邊緣的分割方法、基于區域的分割方法以及基于數學形態學的分割方法等[6]。Mele等提出了基于全局閾值與局部種子區域生長法相結合的昆蟲圖像分割方法[7]。劉曉靜等根據復雜背景下的昆蟲彩色圖像的特點,采用了一種融合顏色和空間信息的靜態圖像壓縮(JSEG)分割算法[8]。一方面,這些研究只利用圖片中邊緣、顏色、紋理等低級特征,分割結果并不精確,同時對于圖像的要求較高,且對于昆蟲的分類大多是在分割結果的基礎上進行,整個過程須要分步進行,存在效率低、適用性差等缺點。另一方面,目前多數研究是將某領域中較成熟的圖像分割算法直接或稍加改進后,在較小的測試集或某張圖像上進行仿真測試,很少對大樣本的圖像做測試,不能充分說明方法的可行性[9]。自然環境下昆蟲種類繁多,實際場景下獲取的昆蟲圖像背景復雜,有些昆蟲目標與背景相似度高,這使得僅依靠圖片中低級特征去解決復雜背景下昆蟲目標的分割及識別分類存在較大的局限性。

  近年來,隨著機器學習的迅速發展,國內外學者越來越關注以機器學習和深度學習算法為基礎的圖像識別分割。在昆蟲分割方面,楊信廷等以粉虱和薊馬為例,提出了一種基于邊緣檢測算子分割和支持向量機的溫室粉虱和薊馬誘蟲板的圖像識別算法,實現溫室害蟲的誘蟲板圖像識別[10]。王衛民等針對害蟲圖像分割和計數存在的問題,在U-Net基礎上改進得到了Insect-Net模型用于昆蟲的識別和計數[11]。竺樂慶等基于全卷積網絡實現了鱗翅目標本圖像前背景的自動分割[12]。Pang等針對傳統分類器對圖像要求高且分類不準確等問題,基于F-RCN對昆蟲進行識別[13]。上述昆蟲分割方法僅在實驗室環境無背景或單一背景的昆蟲圖像上具有較好的分割效果。對于自然環境下復雜背景的昆蟲圖像的分割及識別分類效果還有待進一步探索。

  針對自然環境下昆蟲圖像分割和識別的特殊性和復雜性,以及目前昆蟲圖像分割及識別的不足,本試驗提出逐像素聚類的端對端的昆蟲圖像分割方法,擬同時實現復雜背景下的昆蟲圖像背景分離和昆蟲識別,本研究主要包括材料與方法、試驗與結果以及總結與展望。

  1 材料與方法

  1.1 圖像數據與試驗環境

  本試驗的試驗圖像數據涵蓋5個目級階元下的37類共4 285張昆蟲圖像[14-15]。所有圖像都是通過數碼相機(佳能、尼康和移動設備等)捕獲的。為了消除光照變化的潛在負面影響,所有樣品圖像在作物田間情況下均采用統一的光照設置進行預處理。本試驗采用圖像標注軟件Labelme[16]以VOC格式對圖像添加掩膜標簽,并生成模型訓練所需的掩膜圖片,數據集中每類昆蟲圖像及其對應的掩膜圖像示例如圖1所示。圖1中對應每種昆蟲的編號、種類名稱及數量均在表1中詳細列出。試驗在杭州電子科技大學高性能計算機平臺上進行。該平臺操作系統為Windows 10,平臺采用單塊型號為NVDIA GTX 1080Ti的圖形處理器,搭載Intel(R) Core(TM) i7-8700k的CPU,內存為11 G。

  1.2 昆蟲圖像分割方法概述

  本研究擬使用基于YOLCAT++[17]的昆蟲分割模型,其算法整體流程如圖2所示。首先,昆蟲原始圖像通過主干特征提取網絡得到特征圖,然后C3~C5層特征圖通過特征金字塔網絡FPN[18]得到P3~P5層特征圖。同時為消除混疊效應,對P3~P5層進行卷積得到新的P3~P5層,P6、P7層是由P5層卷積得到。模型將分割過程拆分為頭部預測和原型網絡2個并行的分支,將2個分支的輸出合并獲得最終的掩膜。筆者使用快速非極大抑制對每個實例預測得到的掩膜進行處理。通過裁剪將邊界外的掩膜清零,其中訓練階段的邊界是真實邊框,評估階段的邊界是預測的邊框。最后,以0.5為閾值對生成的掩膜進行圖像二值化處理得到最終結果。

  1.2.1 主干特征提取網絡結構 目前,主流的圖像識別算法主要是利用卷積神經網絡(CNN)自動提取圖像特征,而后依據提取到的特征進行目標的提取和分類。特征金字塔網絡是一種通用結構,它可以與VGG[19]、ResNet[20]、Mobilenets[21]、Darknet[22]等不同的骨架網絡組合使用。本研究分別使用了ResNet50、ResNet101與FPN組合的結構,具體結構如圖3所示。從圖3可以看出,ResNet-FPN分為3個部分,分別是自下而上連接部分、自下而上連接部分及橫向連接部分。其中,自下而上部分是以ResNet作為骨架結構進行特征的提取,ResNet分為5個不同的階段,其中將階段3到階段5各層最后輸出的一層特征分別定義為C3、C4、C5。自上而下是從最高層開始以最近鄰法進行上采樣。橫向連接是利用256×1×1的卷積核對C3~C5各層進行卷積操作,不經過激活函數直接得到256通道的特征圖輸出,將其與上采樣得到的特征圖進行加和得到融合特征圖。然后用3×3的卷積核對融合后的特征圖進行卷積,以便消除混疊效應。最終得到 P3~P5特征層。特征層P6則是P5經過步長為2的最大池化下采樣得到,特征層P7則是P6經過步長為2的最大池化下采樣得到。 其中, P3用于輸入到原型網絡分支,P3~P7特征層作為后續頭部預測分支的輸入。

  1.2.2 原型掩膜及系數計算 原型網絡是一種簡單、高效的學習方式,其基本思路是對于每一個分類來創建一個原型表示。模型中原型網絡分支由若干卷積層組成,其結構如圖4-a所示。以P3層作為輸入進入到原型網絡分支,利用全卷積神經網絡產生一系列與圖像大小一致的原型掩膜,這一過程不依賴任一特定實例且不依賴重池化,因此產生了質量非常高且穩定性更好的掩碼。P3層昆蟲特征圖經過卷積層卷積后輸出維度為138×138×32的掩膜,即32個大小是138×138的原型掩膜。

  為了提高速度,達到實時分割的目的,引入共享卷積網絡,在RetinaNet[23]的基礎上改進得到頭部預測分支,其網絡結構如圖4-b所示。以P3~P7作為輸入進入到預測頭,然后有1個分支輸出目標位置,1個分支輸出掩膜系數,1個分支輸出分類的置信率,即在原本目標檢測分支的基礎上添加一個掩膜輸出,對每個錨框來預測掩膜系數,也就是對實例的表示編碼為原型域的表達。所以決定目標的有4(位置)+k(掩膜系數)+37(分類置信率)個參數。將預測頭分支得到的掩膜系數和原型分支得到的原型掩膜做矩陣乘法,得到圖像中每一個目標物體的掩膜。

  以P3層昆蟲特征圖為例進行說明,P3的維度是69×69×256,則P3層生成的錨框個數是14 283(69×69×3=14 283)。然后頭部預測分支將其分為3個分支輸出,分別是 (1)類別置信度,本數據集共有38類(包括背景),所以其維度為542 754(P3層生成的錨框個數×38);(2)位置偏移,維度為 57 132(P3層生成的錨框個數×4);(3)掩膜置信度,維度為457 056(P3層生成的錨框個數×32)。對P4~P7進行相同的操作,最后將這些結果拼接起來,標記共有19 248,本數據集共有38類(包括背景),所以全部類別的置信度維度為731 424(標記個數×38);全部位置偏移維度為76 992(標記個數×4);全部掩膜的置信度維度為615 936(標記個數×32)。

  同時,在模型中引入了可變形卷積[24],即采用自由形式的采樣代替了傳統的剛性網格采樣,將ResNet C3~C5層中的各個3×3標準卷積每隔3個卷積層換成一個3×3可變形卷積。因此,相比標準卷積,可變形卷積通過學習位置偏移得到更符合待檢目標形狀和尺寸的采樣點。在錨框策略上,本研究采用的是保持比例[1,1/2,2]不變,把FPN每一層的特征尺寸數目增加3倍。

  1.3 分割結果評價指標

  圖像分割的評價指標是從文獻檢索演變而來的,將圖像分割的像素點屬于感興趣區域的可能性與文本的相關性相關聯,從而將文本檢索中的性能評價指標應用到圖像分割[25]。目標一般分為2類(正例和負例,分別用P和N表示)。模型評價指標一般由TP(true positive)、FP(false positive)、FN(false negative)及TN(true negative)4個參數表示(表2)。其中,TP表示把正例判為正例的數目,FN表示把正例判為負例的數目,FP表示把負例判為正例的數目,TN表示把負例判為負例的數目。

  準確率是指判斷正確的情況占所有情況的比例,其中判斷正確的總共有(TP+TN)個,準確率A可通過公式(1)計算得到。精確率是指把正的預測為正的個數占所有預測為正的樣本的比例。預測為正的樣本總共有(TP+FP)個,精確率P可由公式(2)計算得到。召回率是指所有正樣本中被預測正確的占所有正樣本的比例,其中正樣本預測為正的有TP個,正樣本總共有(TP+FN)個。召回率R可通過公式(3)計算得到。

主站蜘蛛池模板: 玉山县| 定襄县| 乐山市| 隆林| 庆阳市| 吉水县| 曲阜市| 汉中市| 禹州市| 崇左市| 玉龙| 大渡口区| 修水县| 丰都县| 周口市| 夏邑县| 云林县| 静海县| 凌源市| 隆安县| 广元市| 壤塘县| 绵阳市| 汨罗市| 株洲县| 瓮安县| 犍为县| 霸州市| 杂多县| 高密市| 临江市| 大新县| 迁西县| 纳雍县| 金寨县| 桐梓县| 迭部县| 普格县| 昌乐县| 邵武市| 驻马店市|