期刊VIP學術(shù)指導 符合學術(shù)規(guī)范和道德
保障品質(zhì) 保證專業(yè),沒有后顧之憂
來源:期刊VIP網(wǎng)所屬分類:綜合論文時間:瀏覽:次
摘 要:為能更有針對性的控制PM2.5濃度,對2000-2017年間全國31個省市PM2.5濃度數(shù)值和由專家先驗得出的影響PM2.5的六種人為因素分別建立了基于BIC評分函數(shù)、K2評分函數(shù)進行結(jié)構(gòu)學習的兩種貝葉斯網(wǎng)絡模型、支持向量機模型、K-近鄰模型進行分析。利用5-折交叉驗證對四種模型進行評估。發(fā)現(xiàn)在樣本量不太大的情況下,貝葉斯網(wǎng)絡表現(xiàn)出更好地穩(wěn)健性與優(yōu)越性,而基于K2評分函數(shù)進行結(jié)構(gòu)學習的貝葉斯網(wǎng)絡模型具有更好地分類性能。為政府相關(guān)部門對我國PM2.5濃度更加有效的控制,以及采取更加具有針對性的治理方案提供了思路與方案。
關(guān)鍵詞:PM2.5;貝葉斯網(wǎng)絡;結(jié)構(gòu)學習;參數(shù)學習;模型評估
引言
近幾年,隨著我國不斷發(fā)展,城市化的程度不斷提高,在有了越來越多的機遇同時,也面臨著環(huán)境的巨大挑戰(zhàn)。我國PM2.5數(shù)值頻繁“爆表”,長期的霧霾天不僅嚴重影響了我國正常的生產(chǎn)進程,還影響了人們正常的生活。因此,對PM2.5的影響因素進行分析,就顯得十分迫切,但是PM2.5濃度的變化是一個不確定的、復雜的過程,這也增加了建模過程以及分析的難度。近年來,許多專家學者致力于對PM2.5影響因素進行分析。國內(nèi)學者解蕾等[1]使用二元定距變量的相關(guān)分析,分析了兩兩變量之間的關(guān)聯(lián)程度,最終得出結(jié)論PM2.5與SO2,PM2.5與CO,PM2.5與PM10之間都存在著較強的相關(guān)性,之后建立PM2.5與PM10的線性回歸方程,進一步分析二者之間的線性關(guān)系。學者盧德彬等[2]采用Theil-Sen median趨勢分析,Mann-Kendall、R/S和相關(guān)分析方法,分析了PM2.5的時空格局、空間變化特征、污染來源。學者羅毅等[3]將BP神經(jīng)網(wǎng)絡與支持向量機相結(jié)合,構(gòu)建了PM2.5濃度組合的模擬模型,分析了PM2.5污染規(guī)律和趨勢。學者王娟[4]利用灰色關(guān)聯(lián)度分析,找到了主要影響因素,建立主要影響因素與PM2.5的二次多元回歸方程,綜合考慮了各因素的影響。雖然上述模型均取得了不錯的結(jié)果,然而,利用上述方法在對PM2.5進行分析時仍存在著一些不足:(1)將所有可能影響因素拆分開來單獨分析,僅考慮單因素的影響,而忽略了多因素之間的交互作用;(2)相關(guān)分析只能反映出兩個或者多個因素之間的線性相關(guān)程度,而不能得出具體的因果關(guān)系;(3)由于PM2.5濃度變化的復雜性,各因素與其之間的關(guān)系是不確定的,多元回歸模型可能并不能反映出其變化的真實規(guī)律;(4)大多文獻
側(cè)重于對影響PM2.5濃度的自然因素進行分析,而簡化了對人為源的分析。基于此,本文利用已有的專家先驗知識,找出影響我國PM2.5濃度的6個主要人為因素,分別建立基于K2評分進行結(jié)構(gòu)學習的貝葉斯網(wǎng)絡以及根據(jù)BIC評分進行結(jié)構(gòu)學習的兩種貝葉斯網(wǎng)絡模型,對在各因素共同作用下,PM2.5數(shù)值是否能達到我國二級標準進行判斷,同時建立支持向量機(SVM)、K-近鄰(KNN)模型,利用5-折交叉驗證對四種模型的分類精度進行對比,考察四種模型在樣本數(shù)目不太大的情況下的分類精度,找出更為有效的單一分類模型。通過分析影響PM2.5濃度的直接因素、間接因素或無關(guān)因素,據(jù)此可以為政府相關(guān)部門控制PM2.5濃度提供更加有針對性,更為有效的建議方法。
貝葉斯網(wǎng)絡是由節(jié)點以及有向邊組成的概率圖模型,是一種在不確定、不完整的因素影響下,進行推理的一種有效的工具。貝葉斯網(wǎng)絡提供了一種展示變量之間的因果關(guān)系的框架結(jié)構(gòu)。[5]目前貝葉斯網(wǎng)絡被廣泛應用于故障分析以及相關(guān)領(lǐng)域。例如,在故障分析領(lǐng)域,李爽等[6]基于BN-ELM方法對煤礦瓦斯安全態(tài)勢進行研究;熊宇峰等[7]借助樹形貝葉斯網(wǎng)絡,實現(xiàn)對配電網(wǎng)故障的快速災情推斷,Hu[8]等借助貝葉斯網(wǎng)絡對地震液化勢進行預測。在金融領(lǐng)域,嚴冠等[9]等利用貝葉斯方法建立銀行同業(yè)借貸網(wǎng)絡,對其中的系統(tǒng)風險進行分析研究。
1 研究區(qū)域與數(shù)據(jù)來源
本文面向我國31個省市,收集了2000-2017年相關(guān)數(shù)據(jù)558條。其中,我國2000-2017年的PM2.5值年度數(shù)據(jù),由全國城市空氣質(zhì)量實時發(fā)布平臺獲得。根據(jù)專家知識,得到影響PM2.5濃度的6個人為因素,包括:城市化水平(Urbanize)、產(chǎn)業(yè)結(jié)構(gòu)(IS)、能源結(jié)構(gòu)(ES)、外商直接投資額(Open)、人均生產(chǎn)總值(GRP)、政府治理(PT)。本文使用城鎮(zhèn)居民的消費水平與居民消費水平的比值表示城市化水平;產(chǎn)業(yè)結(jié)構(gòu)用當?shù)氐诙a(chǎn)業(yè)增加值占該地區(qū)生產(chǎn)總值的比重來表示;用該地區(qū)煤炭消耗量與該地區(qū)生產(chǎn)總值的比值反映能源結(jié)構(gòu),外商直接投資額以外商投資企業(yè)進出口總額與地區(qū)生產(chǎn)總值的比值來衡量;由政府治理廢氣項目完成投資占工業(yè)污染治理完成投資的比重來衡量政府治理的力度。相關(guān)數(shù)據(jù)來自《中國統(tǒng)計年鑒》。對數(shù)據(jù)的統(tǒng)計描述如圖1。
從圖中可以看出,地區(qū)人均生產(chǎn)總值存在較多離群點,且各點之間差距較大,這也從側(cè)面反映出我國的經(jīng)濟發(fā)展仍然是不均衡的,地區(qū)之間的經(jīng)濟水平差異較大。此外,可以看到外商直接投資也存在較多離群點,根據(jù)我們的認識,經(jīng)濟水平更高、地理位置更優(yōu)越的地區(qū)可以吸引更多的外商投資,因此造成了該樣本值分布不均、差異較大。為了更加真實的反應各因素對PM2.5濃度的影響,本文將離群點全部保留。
2 研究方法
本文根據(jù)歷史數(shù)據(jù)以及專家知識,利用5-折交叉檢驗方法,對兩種貝葉斯網(wǎng)絡、SVM模型、K-近鄰,四種分類模型進行訓練與檢驗,并對四種模型在樣本數(shù)目不太大情況下的分類的準確性進行比較,得出更有效的分類模型。
2.1 貝葉斯網(wǎng)絡
一個完整的貝葉斯網(wǎng)絡模型由貝葉斯網(wǎng)絡結(jié)構(gòu)、條件概率表兩部分組成。其網(wǎng)絡結(jié)構(gòu)是一個有向無環(huán)圖,[10]其不同節(jié)點代表了不同的變量,節(jié)點之間的有向弧由父節(jié)點指向子節(jié)點,表示子節(jié)點的取值會受到父節(jié)點取值的直接影響。
2.1.1 概率推理
與傳統(tǒng)的概率派直接根據(jù)樣本數(shù)據(jù)建模分析不同,貝葉斯派為了更加充分利用先驗信息,首先引入?yún)?shù)先驗分布,再根據(jù)樣本數(shù)據(jù),計算得到參數(shù)的后驗概率,從而加深對先驗信息的認識,在不斷迭代,重復上述方法的過程中,不斷得到新的先驗概率,再將更新修正后的先驗信息繼續(xù)用于求參數(shù)的后驗概率,從而實現(xiàn)更加準確的推斷。通過樣本數(shù)據(jù),可以對一個給出節(jié)點的位置與其條件概率分布的貝葉斯網(wǎng)絡重新估計其變量的概率分布,其公式基礎便是如下貝葉斯公式與乘法公式:
其中,P(X)為先驗概率,P(Y)為邊際分布,P(Y|X)是由樣本數(shù)據(jù)得到的似然概率。由于貝葉斯網(wǎng)絡的聯(lián)合分布具有馬爾可夫性,即變量只與其父節(jié)點取值有關(guān),因此公式(2)可以寫成(3)的形式,π(xi)是變量xi的父節(jié)點概率。
2.1.2 數(shù)據(jù)處理
由于貝葉斯網(wǎng)絡對于處理離散數(shù)據(jù)具有更強的穩(wěn)健性,因此先對數(shù)據(jù)進行離散化處理。按照PM2.5的濃度是否達到我國二級標準,即年均值是否小于35μg/m3。將均值小于等于35μg/m3賦值1,否則賦值為0。由于外商直接投資額、政府治理兩個因素含有大量缺失數(shù)據(jù),因此本文將這兩個因素中的缺失數(shù)據(jù)賦值為0,非缺失數(shù)據(jù)賦值為1,以考察這兩個因素的有無對于PM2.5濃度能否達標的影響。對于其他變量的缺失值,本文用插補法進行插補,之后利用k均值的方法將變量人均生產(chǎn)總值、能源結(jié)構(gòu)、產(chǎn)業(yè)結(jié)構(gòu)、城市化水平進行聚類,其聚類中心如表1:
表1 變量聚類中心
離散化后的結(jié)果如表2所示。
2.1.3 結(jié)構(gòu)學習
貝葉斯網(wǎng)絡進行結(jié)構(gòu)學習的方法主要分為兩大類:(1)基于約束的結(jié)構(gòu)學習法。這類方法的核心思想是:首先對訓練數(shù)據(jù)集進行條件獨立性測試等統(tǒng)計測試,[11]從而找出變量間的條件獨立關(guān)系。DAG圖就是按照盡可能多地覆蓋條件獨立性關(guān)系的原則所構(gòu)造出來的。[12](2)基于評分搜索的結(jié)構(gòu)學習方法。一種直接的想法是,希望能夠遍歷DAG結(jié)構(gòu)中的每一種情況,根據(jù)某種評價準則,去對每一種可能情況進行評分,選擇該標準下的最優(yōu)結(jié)構(gòu)模型。然而隨著貝葉斯網(wǎng)絡結(jié)構(gòu)模型中節(jié)點數(shù)的增加,DAG結(jié)構(gòu)的數(shù)量將會大幅增加,Robinson曾給出一個計算DAG結(jié)構(gòu)數(shù)量的計算公式:
由公式可以看出,隨著節(jié)點數(shù)增加,DAG結(jié)構(gòu)的數(shù)目的增加速度是指數(shù)級別的,因此,在節(jié)點數(shù)比較多的情況下,想要遍歷每一種結(jié)構(gòu)形式在有限的時間內(nèi)是很難完成的。為了解決這一問題,許多學者便提出了利用評分函數(shù)的方法,例如爬山算法,面向完全數(shù)據(jù)模型的K2算法、以及面向含有少量缺失數(shù)據(jù)的EM算法以及馬爾可夫-蒙特卡洛(MCMC)算法,用評分函數(shù)作為準則,對各結(jié)構(gòu)進行打分,進而選擇出得分最高的結(jié)構(gòu),該結(jié)構(gòu)即為該準則下最優(yōu)。評分函數(shù)主要分為兩大類,一類是包括BDeu評分、K2評分等的貝葉斯評分函數(shù)。假設網(wǎng)絡拓撲結(jié)構(gòu)G的先驗概率為P(G) ,針對給定樣本集D,根據(jù)貝葉斯公式,網(wǎng)絡結(jié)構(gòu)G的后驗概率可以表示為:
由于P(D)為樣本的函數(shù),與拓撲結(jié)構(gòu)無關(guān),因此對式(5)求極值等價于對其分子P(G)P(D|G)求極值,使得分子達到最大的G,即為所求的,具有最大后驗概率的網(wǎng)絡結(jié)構(gòu)。為了計算的方便,定義
logP(G,D)=log(P(G)P(D|G))=logP(G)+logP(D|G)(6)
為網(wǎng)絡結(jié)構(gòu)的貝葉斯評分,即為MAP測度。[13]另一類是基于信息論的評分函數(shù),BIC評分、MDL評分以及AIC評分等都是使用頻率較高的評分函數(shù)。爬山算法是貪婪算法的一種,通過不斷迭代最大程度提高分數(shù),一旦找到局部最大值,搜索將終止,并返回相應的局部最優(yōu)的結(jié)果。本文以爬山算法作為搜索策略,分別選擇貝葉斯評分函數(shù)中的K2評分函數(shù),基于信息論的BIC評分函數(shù)對模型進行打分,結(jié)合專家先驗知識確定出兩個局部最優(yōu)的DAG網(wǎng)絡結(jié)構(gòu)。為了表述的方便,下文分別將基于K2評分函數(shù)的貝葉斯網(wǎng)絡模型與基于BIC評分的貝葉斯網(wǎng)絡結(jié)構(gòu)模型記為BN-K2模型與BN-BIC模型。
推薦閱讀:科技核心投稿論文要求有基金嗎