基于自優化深度網絡的模型攻擊方法

來源：期刊VIP網所屬分類：軟件開發時間：瀏覽：次

　　摘要：機器學習方法常使用私有數據來訓練模型以期獲得更好的效果。然而，非授權用戶可以通過模型輸出來判斷數據是否參與訓練，破壞了數據隱私安全。對此，提出了基于深度優化網絡的模型攻擊方法，從攻擊者的角度出發，分析攻擊方法原理，有針對性地防御對模型的攻擊，增強模型的隱秘性。所提方法自動對模型進行攻擊，獲得自優化的參數，提高攻擊的準確度，充分挖掘模型中的安全缺陷，揭示模型的可改進之處，改善模型的安全性。在CIFAR-100數據集上進行了實驗，得到AUC值為0.83，優于base方法。實驗結果驗證該方法能有效地提升攻擊效果。

　　關鍵詞：機器學習;優化;隱私保護;模型攻擊

　　1 引言(Introduction)

　　隨著深度學習研究的不斷深入，深度學習模型的安全問題引起了研究者的廣泛關注，隱私泄露問題越來越受到重視[1-4]。一方面，模型固有的特性使攻擊者有機會獲取其中的隱私信息;另一方面，模型中的隱藏層會形成較大的有效容量，將一些訓練數據細節化為參數[5]，記錄在模型中。

　　通過對測試數據的輸出分析，可以對模型有一個明確的衡量，同時也急需一個有效的攻擊方法來模擬對目標的攻擊，發現模型中存在的問題。雖然已有一些方法，但是這些方法在模型的攻擊精度上還有待提高。因此，需要設計研發一種有效的方法來提高攻擊的效果，從而更好地改進模型的安全性。

　　針對這一問題，本文提出了基于自優化的深度網絡模型攻擊方法，通過已知模型的層數，對其進行計算，得出一組攻擊參數，使用這些指定參數對模型相應的層進行攻擊，獲得較好的攻擊效果。

　　2 相關工作(Related work)

　　2.1 推理攻擊

　　針對機器學習算法的推理攻擊分為成員推理和重構攻擊。在重構攻擊中，攻擊者的目標是推斷訓練集中記錄的屬性[6]。成員推理攻擊利用了一種觀察，即機器學習模型在它們所訓練的數據上的行為常常與它們第一次“看到”的數據不同。攻擊者會構建一個攻擊模型，該模型可以識別目標模型行為中的這些差異，并利用它們來區分目標模型的成員和非成員。

　　深度學習的數據以不同方式被用于訓練模型。基于成員推理攻擊方法的攻擊者可以觀察深度學習過程，通過深度學習模型測量訓練數據的泄露情況。本文提出的方法利用深度學習算法。

　　2.2 差分隱私

　　差分隱私技術使攻擊者很難通過模型的輸出來分辨某條數據是否被用于訓練機器學習模型，從而達到保護數據隱私的效果[7]。按照差分隱私的要求，在數據集中添加或刪除一條數據后，都不會顯著影響作用在該數據集上的算法的輸出結果[8]。差分隱私已經被用于對推理攻擊的強防御機制[9-10]。研究人員將差分隱私引入模型算法中，對模型的梯度進行擾動，提高了隱私性[11]。

　　本文對差分隱私方法進行改進，重點分析哪些數據被用來訓練模型的個人隱私。為了達到保護隱私的目的，進一步分析攻擊方式來評估模型的優劣。對絕大多數機器學習任務而言，在算法求解過程中滿足差分隱私，即可以認為實現了對模型的隱私保護。

　　2.3 ML Privacy Meter

　　ML Privacy Meter是Python基于Tensorflow 2.1開發的一個應用程序接口，可以針對目標模型訓練攻擊模型，并可以使用指定的攻擊方式訓練出攻擊模型。ML Privacy Meter使用成員推理攻擊來測量深度學習模型訓練數據的信息泄露，數據被用于訓練模型，攻擊者也可以觀察深度學習過程。

　　對于一個目標數據記錄，攻擊模型計算損失，并可以使用一個簡單的反向傳播算法計算有關所有參數的損失梯度。由于深度神經網絡中使用了數以百萬計的參數，具有如此大維數的向量不能正確地對訓練數據進行泛化。與非成員相比，模型的梯度在訓練數據成員上的分布是可區分的，可以幫助對手運行精確的成員關系推理攻擊，使分類模型得到很好的概括。

　　3 方法(Method)

　　3.1 攻擊參數自優化

　　雖然ML Privacy Meter提供了比較方便的測量，但是沒有提供優化參數的方法。為了能獲得較好的白盒攻擊策略效果，本文使用整體參數優化選擇的方法。這個方法充分考慮目標模型層數，進行平均細分后再決定攻擊的層數N。

　　在進行白盒攻擊時，需要確定對哪些層進行攻擊。整體參數優化法可以盡可能地對模型參數進行探索，同時又能避免逐層對模型進行窮究式探索，獲取模型中最關鍵的中間層。可見，整體參數優化法具有明顯的優勢。據此，本文設計了一種攻擊參數自優化方法，采用均方誤差作為Loss函數，其計算方式為：

　　其中，n為樣例個數，是各個樣例權重，為真實數據，為預測值。

　　自優化網絡攻擊方法如算法1所示。

　　算法 1：自優化網絡攻擊方法(Self-Optimizing Net Attack， SONA)

　　1：訓練目標模型M

　　2：獲得模型的網絡層數參數Layer_Num

　　3：初始化攻擊attack_hander

　　4：初始化攻擊模型 θa

　　5：通過Split方法從Layer_Num中獲得目標層列表targetLayersList

　　6： for i∈[0，epochs] do

　　7： mtrain_data， ntrain_data = attack_hander()

　　8： moutputs = forward_pass(M，mtrain_data，N)

　　9： noutpus = forward_pass(M，ntrain_data，N)

　　10：利用式(1)計算損失函數 Loss(ntrain_data，

　　mtrain_data)

　　11：使用梯度下降更新參數θa

　　12： end for

　　3.2 目標模型

　　Alexnet的網絡結構模型引爆了神經網絡的應用熱潮，并贏得了2012屆圖像識別大賽的冠軍，使得CNN成為在圖像分類上的核心算法模型，很適合作為驗證模型。Alexnet的網絡結構如圖1所示，包含8 層權重，前5 個是卷積的，其余3 個是完全連接的，最后一個完全連接層的輸出被饋送到1000路Softmax激活函數。本文設計的網絡最大化了多項邏輯回歸目標，相當于最大化了在預測分布下正確標簽的對數概率在訓練案例中的平均值。

　　AlexNet與LeNet相比，網絡結構更豐富，有明顯的優勢。AlexNet通過使用Dropout實現數據增強，從而抑制數據過擬合，適合用來作為神經網絡攻擊的對象。攻擊的訓練流程如圖2所示。

上一篇：軟件開發中測試驅動開發的運用

下一篇：計算機軟件安全檢測存在的問題及應對措施

2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

基于自優化深度網絡的模型攻擊方法

查看北核目錄大全及期刊首頁

更多軟件開發文章推薦

專題專項服務