2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

一種改進的大數據流通共享安全方案

來源:期刊VIP網所屬分類:綜合論文時間:瀏覽:

  摘 要:在大數據的整個生命周期中,針對數據流通共享的過程,已經有了一些安全技術進行保障,如數據加密技術、數據脫敏技術。但是,由于數據的提供方和使用方通常并不在同一系統中進行管理,存在數據資產跨域流通的情況。如何對跨域流通共享的數據資產進行確權,并對數據發生安全事件時進行泄露溯源,是大數據流通共享過程中亟需解決的安全問題。文章通過將數據加密技術、數據脫敏技術、數字水印技術和區塊鏈技術等進行結合,提出了一種體系化的安全的改進方案,能夠解決在數據跨域傳輸后,確保數據被安全合規的使用。

  關鍵詞:大數據;區塊鏈;數據流通共享;模糊哈希;數據確權

大數據論文

  1 引言

  大數據時代背景下,由于供需方所有的數據資源的不均衡、數據算力的差異性,為減少數據孤島現象,將數據轉化為知識和價值,實現業務創新和增值,需要進行各方數據的流通和共享。但在此過程中,由于數據安全相關的法律法規的不健全[1]、企業數據安全風險意識缺乏和數據安全技術能力的不足,使得在進行政府與政府之間、政府與企業之間、企業與企業之間的數據流通和共享過程中,可能發生數據泄漏、數據竊取和濫用等問題,危害了國家社會利益,侵犯了公民隱私[2,3]。

  為從技術層面上保障數據安全的流通和共享,促進大數據的合法合規使用,減少數據安全事件發生,傳統的數據脫敏和加解密技術的應用,能夠在防止敏感信息泄漏和數據竊取方面起到一定作用[4,5],但并不能防止數據濫用和非法傳播。通過引入數字水印技術,配合區塊鏈建設可信任的使用網絡,形成體系化的數據安全解決方案,可明顯地保障數據的安全流通和共享。

  2 大數據流通共享現狀

  2.1 大數據流通共享定義

  大數據流通共享是指將企業、政府等信息系統中存儲的大數據作為流通和共享對象,按照數據供需各方約定的規則、協議等,將數據從數據所有方向數據需求方提供分析使用的過程[6]。數據的流通共享可使數據脫離數據所有方,從其原有場景中進入一個目的性更強的應用場景,實現數據價值的變現。因此,數據的流通共享是創造數據價值關鍵的一環,它通過變更數據原有的使用場景和使用目的,將數據從產生端轉移到使用端,實現了數據資源的優化和數據價值的釋放。

  2.2 大數據流通共享方式

  本文定義的流通共享分為原始數據和結果數據的流通共享。設有數據提供方S和數據需求方A、B、C,如圖1所示。S從本地數據倉庫抽取數據并傳至A、B、C對應的數據服務器DB-Sa、DB-Sb、DB-Sc中。

  方式一:S對A通過直接存儲對接的形式提供原始數據,如通過FTP、HDFS,將原始數據從DB-Sa傳輸至DB-A。在此種方式下,數據通常以離線或批量的文件形式進行傳輸,有時也可以是庫對庫的直接同步傳輸。

  方式二:S對B提供數據資源目錄,如數據開放平臺,B通過登錄訪問S的數據開放平臺,選擇所需的原始數據資源,并進行訪問獲取至DB-B。B獲取原始數據的方式可能是離線文件的形式,如CSV、XLS等文件,也可能是API調用的形式,查詢單條數據結果。

  方式三:S對C不直接提供原始數據的傳輸,而是在內部提供數據分析平臺,由C通過數據分析平臺在S所控制的區域內,完成數據分析任務后,將分析結果取回至DB-C。

  在三種數據流通方式中,方式三為結果數據的流通。對于結果數據,一般認為已脫離了原始數據所具有的表現形式,并且對特定數據需求方和特定應用具有針對性,因此從數據資產的所有權上來講,結果數據的所有權應屬于數據使用方。而方式一和方式二的情況,流通的數據為原始數據,數據的所有權屬于數據提供方。

  2.3 存在的安全性問題

  由于數據資產不同于其他實物資產,存在易于復制、易于傳播、易于加工等特性,從而造成了原始數據在流通共享過程中出現一些安全問題,包括數據資產確權的問題和數據泄露后溯源的問題。

  (1)數據資產確權問題:由于數據采集源豐富、易于編輯的原因,使得在流通共享后無法清晰分辨數據的所有權。如S將其所有的原始數據傳輸給A后,A可以否認原始數據來自S。即使S的本地留存有數據傳輸的日志,但是中心化的記錄存在被S修改的可能,因此無法從完全合規的層面確認數據資產的所有權。

  (2)數據泄露溯源問題:按照供需雙方的協議約定,數據應當限制在一定范圍內使用,并保證被有限次使用。但由于無法對需求方的使用進行安全管控,因此可能存在數據被二次售賣的情況。如A可以違背協議,將S的數據轉售給其他廠商,造成數據無法追溯。

  針對上述問題,閆樹[7]等人提出將區塊鏈技術應用于數據共享,王海龍[8]等人也給出了一種基于區塊鏈的大數據確權方案,通過利用區塊鏈的防篡改特性,實現數據流通記錄的可信存證。吳健[9]等人提出通過結合區塊鏈和數字水印技術,實現了一種在版權保護場景下的應用。但是,上述方案都是基于數據的強密碼哈希的一致性保證的,一旦鏈下的數據發生微小改變,如增刪部分內容的情況,則由于哈希值的變化將造成方案中鏈上鏈下無法對數據進行追溯和確權的現象。

  3 改進的流通共享方案

  3.1 模糊哈希

  模糊哈希算法[10,11]是一種基于數據內容的分片哈希算法(Context Trigger Piecewise Hash,CTPH),算法涉及到一個弱哈希算法和一個強哈希算法。弱哈希算法主要用于基于數據內容計算分片的大小,然后由強哈希算法對指定分片的內容進行計算,再將每片數據內容的哈希值中的部分數據拼接后,與分片大小等條件共同構成最終結果。本方案使用模糊哈希的一種實現—Ssdeep用于哈希值的計算和相似度判斷,表1為對含有10000條數據記錄的文件,分別進行了以100條記錄為單位的順序改變、記錄增加和記錄刪除的情況下與原始數據進行相似度對比的結果。

  推薦閱讀:大數據時代金華市區域科技資源共享的路徑與實踐

主站蜘蛛池模板: 嘉黎县| 南雄市| 东乡县| 柯坪县| 罗山县| 浦北县| 包头市| 华坪县| 周至县| 通化市| 阿图什市| 泽库县| 襄樊市| 武邑县| 南开区| 岳普湖县| 桐乡市| 肥西县| 沈丘县| 河北省| 安阳县| 嘉兴市| 新巴尔虎右旗| 泽普县| 贵定县| 无锡市| 永平县| 洛浦县| 桃园市| 哈尔滨市| 泰宁县| 泗洪县| 枝江市| 桦南县| 浠水县| 喀喇沁旗| 札达县| 武功县| 荔浦县| 中卫市| 大理市|