期刊VIP學術指導 符合學術規范和道德
保障品質 保證專業,沒有后顧之憂
摘要:為解決內河航道中具有不同運動模式的船舶軌跡識別問題,提出一種基于寬度學習系統(broad learning system, BLS)的船舶軌跡分類算法。對通航區域進行劃分并制定軌跡篩選規則以構建標簽矩陣。利用分段三次Hermite插值法分別從軌跡點記錄時間上等時距和軌跡點空間分布上等間距兩個角度,從原軌跡數據中進行特征點坐標的提取以構建軌跡特征矩陣。將標簽矩陣和軌跡特征矩陣代入BLS以實現分類算法的訓練與測試。以京杭運河淮安段交叉航道AIS數據為實例,進行軌跡分類實驗。結果表明,基于BLS的船舶軌跡分類算法在分類精度和訓練耗時上均優于基于反向傳播神經網絡和支持向量機的軌跡分類算法。
關鍵詞: 內河運輸; 船舶軌跡; 軌跡分類; 寬度學習系統
作者:王顥程、左毅、李鐵山
引 言
加快內河水運發展已經成為我國國家戰略,建成暢通、高效、平安、綠色的現代化內河水運體系勢在必行。而隨著內河水運的不斷發展,船舶交通量越來越大,通航飽和度逐漸升高,使得內河通航水域海事安全監管面臨更大挑戰[1]。船舶自動識別系統(automatic identification system,AIS)的普及使得航運安全監管的研究擁有了原始數據的支持[2],使得對于船舶異常行為識別、通航量預測、船舶軌跡追蹤等方面的航跡數據分析成為可能[3],而對航跡數據進行分析的重要環節之一即是對船舶軌跡信息的分類。
船舶軌跡分類方法主要包括機器學習算法中無監督學習的聚類算法和有監督學習的分類算法。在無監督學習的聚類算法方面:MA等[4]通過利用軌跡單向距離構建軌跡間相似度矩陣[5],提出一種基于譜聚類的船舶運動模式識別算法。魏照坤[6]利用最小描述長度準則將原始軌跡劃分為若干個子軌跡,通過簡化的Hausdorff距離計算法度量了不同子軌跡段間的相似性,最后利用具有噪聲的基于密度的聚類方法(density-based spatial clustering of applications with noise, DBSCAN)[7]完成了對具有不同運動模式的船舶軌跡的區分。SHENG等[8]在上述方法的基礎上,提出一種利用綜合距離函數計算軌跡結構相似性的DBSCAN,同樣實現了對具有不同運動特征的船舶軌跡的分類。然而,上述基于密度的聚類方法需要設置的閾值較多,且尚不能分析單條完整軌跡的運動特點。在有監督學習的分類算法方面:劉磊等[9]提出一種軌跡間綜合距離計算方法,并結合K近鄰(K-nearest neighbor, KNN)算法完成了船舶軌跡的分類。綜合距離的計算需綜合考慮軌跡點坐標、航向、航速等多種因素,還需要人為設定各因素的權值,且對原始數據的完整性及準確度要求較高。CHEN等[10]將軌跡的原始數據用最小二乘三次樣條曲線近似(least-squares cubic spline curves approximation, LCSCA)表示后構建稀疏表示分類法(sparse representation classification, SRC)的字典矩陣,根據殘差最小化原則完成了軌跡類別的判斷。LCSCA算法解決了分類算法的軌跡點特征矩陣維度統一問題,但各軌跡近似表示后的取點數量會受到算法限制,且在構建SRC的字典矩陣時每類軌跡的數量均需相同。
上述方法在實際操作中往往需要對原始數據進行多方面的信息統計,需要人為設置的閾值較多,對原始數據的完整性要求較高。針對以上問題,本文提出一種基于寬度學習系統(broad learning system,BLS)的內河航道船舶軌跡分類算法。首先,對研究區域進行子區域劃分,從AIS數據庫中篩選出可用的軌跡數據并作標記,以構造標簽矩陣。然后,對軌跡數據進行特征提取。考慮到研究區域的地形、通航規則以及AIS數據上傳頻率對原始軌跡數據的影響,利用分段三次Hermite插值法分別從軌跡點記錄時間上等時距和軌跡點空間分布上等間距這兩個角度對原始軌跡數據進行特征點坐標提取并構建軌跡特征矩陣,供分類模型選擇。為完善軌跡特征矩陣的構建,利用特征點坐標值之差定義并計算各特征點以圓周法表示的航跡向值。最后,切分軌跡特征矩陣及標簽矩陣以構成多組訓練集和測試集樣本并代入BLS網絡進行交叉驗證,完成分類模型的訓練與測試,從而實現對AIS軌跡數據的自動分類。以京杭運河淮安段交叉航道的AIS軌跡數據為例對所提分類算法進行驗證。
1 基于BLS的船舶軌跡分類算法
1.1 軌跡特征矩陣的構建
AIS數據庫中各軌跡的數據長度可能不同,因此不能直接利用原始數據構造軌跡特征矩陣進行分類。考慮到軌跡曲線無法用一條曲線直接表示,利用一種分段多項式插值法從各軌跡上提取相同數量的特征點以統一各軌跡特征向量的維度。常用的分段多項式插值法包括分段線性插值、三次樣條插值和分段三次Hermite插值[11]。分段線性插值簡單易行,但曲線不光滑且精度不高,故不適用于針對船舶軌跡數據的插值。三次樣條插值獲得的曲線光滑度較高,但求解代價較大,精確度受端點導數條件影響,且有時會出現插值越界現象。而分段三次Hermite插值通過構造適當的插值節點導數計算方法可以有效地解決上述問題[12],因此本文采用該插值法。為增加分類模型對于原始軌跡數據的魯棒性,分別從軌跡點記錄時間上等時距和軌跡點空間分布上等間距這兩個角度對軌跡數據進行特征點提取,以構建軌跡特征矩陣。
1.1.1 等時距提取軌跡特征點
等時距提取軌跡特征點時,分段三次Hermite插值法以軌跡點的記錄時間(協調世界時,UTC)為自變量,分別求解軌跡點經度和緯度在各時間段內的插值函數[13]。最后,將該軌跡記錄時間段均分后取得的時間數列分別代入經度和緯度在對應時間段內的插值函數,即可求解該軌跡等時距提取特征點后的各點坐標值。下面以經度的插值為例,介紹分段三次Hermite插值法的具體實現過程。
設某條軌跡的軌跡點坐標向量為
R
=((x1,y1),(x2,y2),…,(xn,yn)),軌跡點記錄時間向量為
T=(t1,t2,…,tn)。其中,xi和yi分別為第i個軌跡點的經度和緯度,ti為第i個軌跡點的記錄時間。記該軌跡上某兩個相鄰軌跡點的記錄時間段為[tj,tj+1],則tj、tj+1、xj、xj+1均為已知量,j=1,2,…,n-1。此外,記tj和tj+1時刻軌跡點的經度對記錄時間的一階導數分別為vxj和vxj+1。根據分段三次Hermite插值,該時間段上的三次插值函數可設為
Xj(t)=ajt3+bjt2+cjt+dj
式中:aj、bj、cj、dj均為未知量。由于該三次多項式一階可導,則有vXj(t)=dXj(t)dt=3ajt2+2bjt+cj
通過求解線性方程組:
xj=ajt3j+bjt2j+cjtj+dj
xj+1=ajt3j+1+bjt2j+1+cjtj+1+djvxj=3ajt2j+2bjtj+cjvxj+1=3ajt2j+1+2bjtj+1+cj
即可得到待定系數aj、bj、cj、dj的值。然而,由于從原始軌跡數據中無法獲得軌跡點經度對時間的導數vxj、vxj+1,這里使用一種利用經度數據在前后相鄰的軌跡點記錄時間段的一階差商進行加權的方式對導數進行近似計算[12]。
如圖1所示,對于三次插值函數的所有中間節點(xk,tk),k=2,3,…,n-1,記其在前后相鄰兩個軌跡點記錄時間段的一階差商分別為δk、δk+1,則有
δk=xk-xk-1tk-tk-1
δk+1=xk+1-xktk+1-tk
記該節點前后相鄰兩個時間段的權值分別為ωk、ωk+1,則有
ωk=131+tk-tk-1tk+1-tk-1
ωk+1=131+tk+1-tktk+1-tk-1
該節點處的一階導數vxk可近似計算為
vxk=
δkδk+1ωkδk+ωk+1δk+1,δkδk+1>0
0,δkδk+1≤0
由于端點處只能獲得一側時間段的一階差商,上述加權求解的方式不再適用,故特別令端點處的一階導數與其相鄰時間段的一階差商相等,即
vx1=δ2
vxn=δn
經上述計算,該軌跡的經度值在各記錄時間段的插值函數可表示為
X(t)=X1(t),t∈[t1,t2]
X2(t),t∈[t2,t3]
Xn-1(t),t∈[tn-1,tn]
同理可得緯度值在各記錄時間段的插值函數:
Y(t)=Y1(t),t∈[t1,t2]
Y2(t),t∈[t2,t3]
Yn-1(t),t∈[tn-1,tn]
設該軌跡按等時距劃分的分段數為p,則提取的各特征點的時間值可表示為
t′m=t1+(m-1)(tn-t1)/p
式中:m=1,2,…,p+1。該軌跡按等時距提取的特征點坐標向量可表示為:Rt=((X(t′1),Y(t′1)),(X(t′2), Y(t′2)),…,(X(t′p+1),Y(t′p+1)))。圖2為某軌跡數據分段數p分別取10和20時的等時距提取特征點效果圖。從圖2可知,等時距提取該軌跡特征點時,分段三次Hermite插值法能夠較好地描繪出該軌跡的特征。
推薦閱讀:寫船舶管理論文能看哪些文獻