2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

基于XGBoost算法的信用債違約預測模型

來源:期刊VIP網所屬分類:軟件開發時間:瀏覽:

  摘要:本文首先對近年來我國信用債違約風險事件進行了統計分析,歸納出造成違約的四類風險,利用隨機森林算法抽取了債券違約的重要特征;然后基于XGBoost算法建立了債券違約風險預測模型,利用主成分分析方法,再結合經濟邏輯分析,提取出6個債券違約風險因子,并闡釋了違約風險因子的作用機制。實證結果表明,本文所構建的違約預測模型對信用債違約的預測具有較高的準確性。

  關鍵詞:XGBoost算法 信用債 違約風險 預測

算法論文投稿

  推薦閱讀:聲音識別算法論文發表投稿期刊

  隨著我國債券市場不斷發展,債券違約等風險事件也有所增多。如何找出債券違約的潛在誘發因素,據此防范誘發系統性風險顯得至關重要。

  關于債券違約的主要研究成果及本文研究思路

  近年來,國外學者在債券違約相關方面進行了一定的理論與實證研究。Kay等(2014)用美國1866—2010年公司債券違約數據研究了債券市場危機的宏觀經濟影響因素;Azizpour、Giesecke和Schwenkler(2018)研究了美國公司債違約聚集的原因,發現違約傳染是其中很重要的一個原因。隨著2014年我國債券剛性兌付的打破,國內學者也開始研究債券違約問題。如曹萍(2015)基于經典的KMV模型研究了地方政府債券違約風險;黃小琳、朱松和陳關亭(2017)研究了債券違約對涉事信用評級機構的影響。然而,上述研究重點關注債券違約的事后分析,缺乏前瞻性。

  與此同時,國內外學者也運用多種模型進行信用債違約預測。如Ohlson(1980)首次提出邏輯回歸預測違約概率;Lombardoa(2018)采用“多觀測”和“多維”數據清理方法,將真實點對點交易數據輸入現代機器學習算法LightGBM中進行計算,得到的結果對實際情況具有較好的擬合效果;胡蝶(2018)運用隨機森林模型對債券違約進行分析,找出了6個重要特征(即篩選出來的變量)。吳世農和盧賢義(2001)選取21個財務指標為變量,進行判別分析、多元回歸分析、Logistic回歸分析,建立了三種財務困境模型;張雙長和張旭(2017)研究了違約因素如何分解,發現按資金償付來源劃分,可分為內源性資金、外源性資金、協調性資金,債券能否按期兌付受經營狀況、融資環境及非經濟因子共同影響。

  現有研究對我國債券違約預測的成果不多,主要是因為債券違約事件近幾年才相對較多出現,現有研究所采用的預測方法也相對簡單。

  本文將按以下結構進行研究。一是簡述債券違約現狀,并對造成債券違約的風險源進行劃分,基于這些風險源收集原始數據。二是介紹研究過程中將應用到的隨機森林算法和XGBoost+LR1模型。三是報告實證過程及結果。實證過程為先用隨機森林算法篩選出重要的變量,對其中的離散型變量運用頻率表進行分析,對其中的連續型變量進行主成分分析。繼而將這些重要變量輸入到XGBoost算法中完成特征變換,再將特征變換后得到的新特征輸入到LR模型中進行預測。然后對預測結果進行評價(見圖1)。四是得出結論、提出建議。

  我國信用債違約現狀與風險因素

  (一)債券違約現狀

  根據數據庫Wind的劃分標準,本文所指違約事件包括信用債的本息展期、交叉違約、擔保違約、技術性違約、提前到期未兌付、未按時兌付本金等情況。自2014年以來的統計數據顯示,2018年違約事件相對較多(見圖2)。

  筆者認為,受融資環境惡化、中美貿易戰及金融監管趨嚴等因素疊加影響,國內外經濟環境日益趨緊,融資渠道收窄,因此2018年信用債違約風險集中顯現。

  (二)債券違約風險因素分析

  本文將從內外兩個方面考慮債券違約原因。其中,內部原因主要與企業自身經營相關,包括公司治理、相關方支持、經營多元化等;外部原因與融資環境和政策相關,主要與公司增發債券的難易程度及公司再融資周轉狀況相關。

  根據光大證券關于信用債違約的研究報告(2018),發行主體經營狀況表現不佳是債券違約的主要誘因,即在2018年之前,內因對信用債違約事件的解釋力度較強。因此本文重點考慮違約的內部原因,梳理出四類主要內部風險因素:民企治理風險、國企治理風險、相關方支持風險和公司經營風險。

  表1中的風險因素均會對公司內部經營狀況及財務狀況產生影響,并進而影響外部因素,如銀行授信額度、第三方擔保額度,從而對發行主體外部籌資能力產生影響。同時,外部融資環境等因素也會對公司再融資難度產生影響,表現為銀根縮緊時銀行惜貸,進而對債券本息兌付產生影響。由此可知,導致債券違約的因素環環相扣。

  算法與模型介紹

  (一)利用隨機森林算法進行降維

  原始數據所含變量多、維度高,為了去除冗余信息、提高效率,本文采用隨機森林算法對數據集進行降維,過濾掉那些對債券違約幾乎沒有影響的變量。

  隨機森林算法是一種基于Bagging算法的決策樹集成學習算法,該算法基于信息增益2計算變量重要性程度,并進行排序,可以從原始特征中篩選出重要性排名靠前的變量。

  (二)利用XGBoost算法進行特征變換

  特征變換即通過線性或非線性的方式,將原變量變換成更加合適的新變量,變換后得到的新變量稱為特征。特征變換的目的在于從原始變量中獲取潛在的獨立成分,從而提取隱含信息。

  本文利用XGBoost算法進行特征變換。該算法是一種基于Boosting算法的回歸決策樹集成學習算法,其預測精度高、穩定性好,對數據中的噪聲、多重共線性等問題敏感度較低。該算法在目標函數中引入正則化(regularization)項,有著較好的泛化能力與擬合能力。通常,運用XGBoost算法進行特征變換的步驟如下。

  第一步,利用分布向前算法訓練XGBoost。

  先構造 函數列,其中:

  通過優化目標函數來求解參數 :

  其中, 代表單棵決策樹。

  在目標函數 中, 為一常數懲罰項。 為損失函數,代表預測的精確度。 為正則化項,式中前一項反映了樹結構的復雜度, 為樹結點數;后一項反映了權重整體的平滑程度, 為結點權重;J為常數, 、 為參數,體現了兩項間的權衡。

  需要通過反復迭代構造函數 ,訓練參數 ,直至訓練好 。

  第二步,將數據集代入訓練好的模型中。對每一個樣本 ,XGBoost算法可以生成一系列葉子結點的值,以這一列值(向量)作為特征變換后的數據。如此得到特征變換后的數據集。

  (三)利用XGBoost+LR模型進行預測

  將特征變換后的數據集代入LR模型中,得到最終預測結果。

  LR數學模型為:

  其中,w、x分別表示系數和變量,P(Y=1︱x)表示違約率。

  XGBoost+LR嵌套結構如圖3所示。將原數據輸入到XGBoost算法,通過特征變換后產生一系列新的變量 ,即特征變換后的數據。再將這一系列新的變量輸入到LR中,完成最終的預測。

  以上操作過程相當于對原信息進行分解再組合。這既彌補了XGBoost這類提升樹算法低估類別型變量重要性的弱點,也實現了自動提取特征的功能。

  實證研究過程

  (一)數據描述與預處理

  根據風險因素分析結果,本文篩選出43個或有潛在影響變量,部分變量如表2所示。同時,選擇在2013年到2018年10月22日期間到期的債券,共25907個樣本,其中90個樣本違約,占總樣本的比例為0.347%。每個樣本均有43個變量。

  為緩解樣本中違約與非違約數據極度不平衡的問題,對原始數據集中非違約債券進行欠采樣,對違約債券進行重復采樣,并按均值填補數值型變量中的缺失值,按原概率填補類別型變量中的缺失值,對類別型變量進行one-hot編碼。

  (二)利用隨機森林算法抽取重要特征,并提取債券違約因子

  利用隨機森林算法計算各變量的重要性得分。以0.0075為標準,去掉低于該標準的變量——這意味著該變量對判斷債券是否違約所能提供的信息甚微,將其余變量選入重要特征集中。將隨機森林算法輸出的重要特征集分成兩部分——數值型和類別型,分別進行債券違約因子挖掘。

  1.對數值型特征的處理

  對數值型特征進行主成分分析,生成碎石圖(見圖4)及主成分結構表(見表2)。圖表數據顯示,所選取的前4個主成分加總幾乎能夠解釋100%的信息。

  主成分結構表顯示了變量對于主要因子的解釋力度。表2顯示,第一主成分受應收賬款周轉天數和營業周期影響較大。應收賬款周轉天數和營業周期體現了公司獲取現金流的能力,因此本文將第一主成分命名為“周轉能力因子”。第二、第三主成分相結合,衡量公司的籌資能力、投資盈利能力,因此本文將第二、第三主成分分別命名為“籌資活動現金流量因子”與“投資活動現金流量因子”。第四主成分受經營活動產生的現金流量影響大,因此將其命名為“經營活動現金流量因子”。

  整體來看,可以認為在公司層面上,現金周轉能力、投資盈利能力、籌資能力、公司主營業務盈利能力這幾項,都與債券是否違約有很強的關系,其分別對應周轉能力因子、投資活動現金流量因子、籌資活動現金流量因子和經營活動現金流量因子。

  2.對類別型特征的處理

  關于類別型特征,主要考察6個特征重要性得分大于0.0075的變量,如圖5所示。繼而通過頻數統計,結合其經濟金融邏輯進行分析。

  圖5 特征重要性得分

  (編輯注:橫坐標下的文字“債券年份”“評級機構”“大股東類型”“是否含權債券”分別改為“債券存續期間”“債項評級”“第一大股東類型”“是否為含權債券”)

  從圖5可見,省份、債券存續期間、所屬行業這三個特征對債券違約的影響較大。其背后邏輯在于省份、債券存續期間、所屬行業等因素體現了宏觀經濟形勢與行業景氣度,這些變量作為外部因素或宏觀因素,直接影響公司的經營情況。

  債項評級也有著重要的影響。總體上而言,機構對債券的評級能夠較為有效地區分出違約風險較大的債券。

  從Wind的中債債券一級分類、第一大股東類型來看,這兩項對債券是否違約也有顯著影響,具體如表3、表4所示。從違約概率來看,第一大股東為外資企業、個人的債券出現了更多的違約案例,或許是因為這兩類債券在政府救助方面得到的支持較少。

主站蜘蛛池模板: 千阳县| 五莲县| 蕲春县| 麻阳| 宁明县| 泰州市| 安化县| 昌吉市| 谢通门县| 六安市| 齐河县| 多伦县| 崇义县| 绥芬河市| 古丈县| 河津市| 金湖县| 高要市| 工布江达县| 习水县| 湖口县| 丰城市| 肥西县| 饶阳县| 依安县| 休宁县| 望江县| 广西| 分宜县| 台南县| 克什克腾旗| 托克逊县| 沭阳县| 襄樊市| 牟定县| 凤城市| 安丘市| 广东省| 册亨县| 武陟县| 缙云县|