2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

基于特征工程與集成學習的惡意軟件預測研究

來源:期刊VIP網所屬分類:軟件開發時間:瀏覽:

  摘要:針對微軟惡意軟件預測數據集,文章結合特征工程的思想和集成學習算法實現惡意軟件感染的預測。為了更好地適應算法的輸入要求,對數據集進行預處理和特征構建,并提出一種利用LightGBM算法以提高預測性能的啟發式搜索方式,得到最終的特征集。以篩選后的特征構成的數據集實現了LightGBM,XGBoost和CART算法的預測,并對預測性能進行了比對分析。通過完全相同的交叉驗證證明,在惡意軟件預測時,集成學習算法有更好的預測性能,AUC值明顯高于傳統決策樹算法。

  關鍵詞:惡意軟件預測;特征工程;LightGBM;XGBoost

軟件開發論文

  0引言

  近年來,惡意軟件在PC端的傳播感染和攻擊行為日益頻繁,給企業和個人計算機用戶的信息安全和財產帶來嚴重威脅,在此背景下微軟提供Windows計算機惡意軟件感染數據集,旨在實現對計算機是否感染惡意軟件的概率預測。機器學習在網絡安全領域的應用也越來越廣泛嘲,boosting集成學習算法是近年來機器學習中較為流行的算法,例如基于樹模型集成的LightGBM和XGBoost算法,近年來常用于基于數據集的預測。本文對數據集進行了預處理,并根據特征工程的理論進行特征的構建與選擇,最終使用boosting算法,實現對惡意軟件感染的有效預測。如何從大量原始數據中盡可能地挖掘出與預測惡意軟件相關聯的信息,并借助集成學習的預測性能實現惡意軟件的預測是本文研究的主要內容。

  1數據認知與預處理

  1.1數據認知

  本文數據引用自kaggle網站的微軟惡意軟件預測數據集。本文預測目的為Windows計算機是否感染惡意軟件,預測標簽為計算機是否檢測出惡意軟件(檢測出記為1,未檢測出記為0),即原數據集中的HasDetections字段。為探究boosting算法在該數據集上的預測效果,本文取其前120萬條數據進行研究。

  所取樣本中預測標簽的正負樣本分布大致相同,因此不需要進行額外的分層抽樣以確保訓練集中的正負樣本比例。將其他特征與預測標簽進行了數據趨勢分析,例如,圖1所舉的示例為不同“AVProduc-tInstalled”(安裝防衛軟件數目)下“HasDetections”的數據分布,從中可以看出,在感染惡意軟件的數據更集中于防衛軟件數目較少的情況。通過以上特征間的分析過程,證明其他特征與預測標簽有一定關聯性。

  1.2數據預處理

  數據集中大部分特征都為類別特征。為了使數據更適用于機器學習算法的訓練,對于原始數據集中的類別型數據采用標簽編碼的方式。例如,圖2給出“ProductName”字段的標簽編碼過程,該字段原有6個類別,在特征編碼時將數量少于1000的所有類別視為異常值,合并劃為同一標簽。

  對于數據集中的數值型數據與布爾型數據不作處理,保留原有數據格式。經過數據預處理后,得到可以投入機器學習訓練的數據集。

  2相關方法與理論

  2.1特征工程及特征選擇方法

  特征工程(Feature Engineering),是一系列工程活動的總稱。特征工程的目的,是最大限度地從原始數據中找到適合模型的特征。此過程不僅能夠降低計算的運行速度,提高模型的預測性能,也使得模型更好理解和維護。

  特征選擇是特征工程中關鍵的一步,實際的特征構建過程中,特征之間可能存在依賴,也可能存在與預測目標不相關的特征。特征選擇是篩選出合適特征的過程,本文提出一種啟發性特征搜索方式以提高預測性能,主要思想是以分類器的預測性能作為判斷準則,從當前的特征集合中移除最不重要的特征,其次根據準則決定部分特征是否刪減或保留,重復上述過程,直到最終的特征集不再發生變化。

  2.2分類算法

  CART算法,即分類與回歸樹(classification andregression tree,CART),是一種常用于分類和回歸任務的決策樹算法。在執行分類任務時,用基尼指數選擇判斷最優特征及最優切分點的依據來構造分類樹。最后基于子樹的平方誤差或基尼指數,剪去部分子樹,減少過擬合以更適應未知數據的預測。

  XGBoost是以分類回歸樹(CART樹)進行組合的一種boosting集成學習方法。XGBoost在使用CART作為基分類器時增加了正則項,大大提升了模型的泛化能力。基于分類回歸樹的XGBoost算法能很好地處理本文中的表格性數據,還可以自動對缺失值進行處理,同時提供更好的優化參數的方式。

  作為boosting集合模型中的新進成員,LightGBM是一種基于決策樹算法的分布式梯度提升框架,原理上采用損失函數的負梯度作為當前決策樹的殘差近似值去擬合新的決策樹。在特征重要性判斷上,LightGBM相對于其他集成學習算法有很多重要的優勢,例如支持直接輸入類別特征,能輸出特征重要性分數,以及較低的計算代價等。

  2.3二分類模型評估指標

  2.3.1混淆矩陣

  混淆矩陣是用來評估二分類模型的一種可視化工具。本文根據模型的預測結果與真實分類結果的比較將所有樣本劃分為四部分,具體如表l所示。

  表1中的四部分具體如下。

  真正(True Positive,TP):當一個正樣本被模型預測為正類。

  假正(False Positive,FP):當一個負樣本被模型預測為正類。

  假負(False Negative,FN):當一個正樣本被模型預測為負類。

  真負(True Negative,TN):當一個負樣本被模型預測為負類。

  推薦閱讀:SCI論文圖片用什么軟件做?

主站蜘蛛池模板: 静海县| 梁平县| 滨海县| 肃宁县| 察雅县| 高邑县| 肇州县| 陆良县| 宽城| 柳江县| 丰台区| 江安县| 湖北省| 宜黄县| 大悟县| 沁水县| 宣城市| 胶南市| 宜兰市| 房山区| 武陟县| 万荣县| 金川县| 双峰县| 新乐市| 板桥市| 普宁市| 阳春市| 定兴县| 安远县| 宁强县| 图木舒克市| 三门峡市| 静宁县| 临澧县| 弋阳县| 浮山县| 南华县| 怀来县| 丁青县| 江源县|