期刊VIP學術指導 符合學術規范和道德
保障品質 保證專業,沒有后顧之憂
摘 要:[目的]建設可長期使用和保存的數據監護平臺是開展科研數據監護服務的核心環節和關鍵。[方法]文章針對機構知識庫科學數據監護平臺存在的數據規范性、可信任度、安全性和隱私問題,利用區塊鏈技術的安全、公正和去中心化等特性,提出融入區塊鏈技術的機構知識庫科學數據監護模型。[結果/結論]本模型能夠實現機構知識庫科學數據監護的基本功能,保障數據存儲的安全,提高科學數據共享的效率、利用率和知識產權保護力度。
關鍵詞:區塊鏈;機構知識庫;數據監護;科學數據;數據管理
20世紀90年代開始,開放獲取運動(Open Access,OA)在圖書情報、編輯出版和新聞傳播領域快速興起[1]。這種旨在消除科學數據間的價格壁壘和許可壁壘,促進科學數據共享和廣泛使用的倡議很快獲得了廣泛關注。在開放獲取理念的倡導下,國內外的高校和科研機構紛紛將機構知識庫的建設作為其科研信息服務的重點。設立機構知識庫的初衷主要是為實現兩點:其一是實現機構知識庫中科研成果的開放獲取,打破傳統的數據共享壁壘,促進知識的交流和再生產;其二是可以長期保存建設機構的科研成果,提升機構的學術影響力和成果展示度,彰顯機構的學術聲望、學術水平和社會價值[2]。
機構知識庫在被提出來后發展迅速,但是在廣泛關注和快速發展的背后,機構知識庫的建設和應用也遇到了一些問題:一方面,承擔機構知識庫建設的高校和科研機構容易受制于自身知識資源儲備、專業人才儲備和資金及技術上的制約,服務范圍面向單一機構本身容易限制機構知識庫的可持續發展;另一方面機構知識庫與傳統的學科庫相比,用戶認知度和用戶參與度都并不理想,這主要是由于機構知識庫定位模糊而且服務理念尚不完善所致。針對這兩方面問題,需要由圖書館員通過協助學者完善數據和元數據來促進共享,積極幫助形成向各自領域的學科庫發布數據成果,建設可長期使用和保存的數據監護平臺[3]。
當前數據監護平臺在數據組織的持續性和可擴展性方面存在不足,存儲數據遭到破壞、更改、泄露或丟失風險[4],數據內容揭示與服務方式深讀不夠[5],數據的異構性與數據格式標準化技術之間矛盾突出[6]等多種懸而未決的實際問題,方興未艾的區塊鏈技術則因其安全、公正、去中心化等特性為以上問題提供了一個可能的解決方案。本文嘗試將雙鏈式區塊鏈技術的相關思想融合到數據監護服務中,并提出相應的模型架構,以此為未來的數據監護服務開展提供思路。
1 區塊鏈技術理論基礎及構建機構知識庫科學數據監護模型的可行性
1.1 區塊鏈技術理論基礎
區塊鏈(Blockchain)是由多個獨立節點參與的分布式數據庫系統,也可理解為由這些獨立節點共同維護的分布式賬簿(DLT,Distributed Ledger Technology),這是一種基于去中心化、去信任思想的數據記錄方式。由此延伸可知區塊鏈技術是一種不依賴任何第三方、通過自身分布式節點進行數據交互、驗證、存儲的技術方案[7]。
區塊鏈技術之所以備受矚目,很大程度上是因為這種技術方案從根本上改變了人們的信任模式。傳統的信息交流和價值交換過程必須通過中介進行,中介作為信息交流和價值交換中的第三方,為網絡中互不信任的各個節點搭建橋梁,信息和價值被集中至中心節點,再由中心節點甄別后分配給目標節點。這種中心化的組織形式為信息和價值的交流活動增加了成本、降低了效率,且中心節點一旦遭受攻擊,就將會威脅到整個網絡的安全。而區塊鏈技術則提供了一種無需信任單個節點,并能創建共識網絡的方法解決了點對點通信中的基本問題,即拜占庭將軍問題(Byzantine Failures)。
區塊鏈的工作原理(見圖1)是將數據分成不同的區塊(Block),每個區塊的塊身(Body)存儲項目(Item),塊頭(Header)包含對前一區塊的塊頭進行哈希函數(Hash Function)計算所得到的哈希值,各個區塊之間都由其塊頭的哈希值與先前的區塊緊密相連成為一個鏈條(Chain)[8]。
圖1 區塊鏈工作原理示意圖
這種塊鏈結構是完全時序的,每一個區塊在創建之時都會被賦予一個無法篡改和偽造的時間戳,這使得整個數據庫擁有可回溯的完整歷史;網絡中的每個節點獨立作業,它們享有同樣的權利和義務,這保證了網絡中絕不存在有特殊權力的中心節點,真正實現了去中心化;整個網絡中的所有數據都是開放的,所有節點都存儲著相同的信息,同時它們也在監督和驗證其他節點所存儲信息的可靠性,并通過投票形成共識網絡,當網絡中少于1/3的節點惡意作弊或遭到攻擊時,系統仍然可以正常工作,這種分布式記錄、傳播和存儲技術為網絡構建了高容錯的安全環境。區塊鏈技術的上述關鍵要素和特性使得它在數字貨幣和金融領域異彩紛呈,而在本文著重探討的科學數據監護服務領域,區塊鏈的上述特性也能夠幫助解決科學數據的組織、共享、保存、增值以及涉及知識產權保護和信息安全的相關問題。
1.2 區塊鏈技術構建機構知識庫科學數據監護模型的可行性
目前,機構數據庫建設成為高校圖書館管理和服務模式創新的重要領域,功能完備的機構知識庫可以不斷擴展圖書館資源,提供專業的科學數據管理和知識共享服務。運用機構知識庫進行數據監護在取得明顯成績的同時也存在很多問題。主要體現在各部門、各科研人員所提交的科學數據組織規范性不夠,數據提交質量參差不齊[9],科學數據間互聯互通困難,信息共享和協同困難;存在中心化困擾,大多數機構知識庫由單一機構中心化管理,若數據被篡改,用戶無法驗證真實性[10];缺乏對數據內容深度標引,無法為科學研究者提供一站式檢索服務;知識庫建設和管理過程中,存在安全性和隱私問題,知識產權問題亟需得到保障[11]。
區塊鏈技術對解決機構數據庫中存在的問題具有可行性。作為由多個獨立節點參與的分布式數據庫系統,區塊鏈本身就是一種數據庫技術,它的應用、存儲對象和技術要素本身與機構知識庫就是相同的。科學數據具有數據的生命周期,區塊鏈技術的時間鏈特性也完全匹配這一期望,可見用區塊鏈技術解決機構知識庫科學數據監護中存在的問題是完全可行的[12]。
融合區塊鏈技術構建機構知識庫科學數據監護模型具有以下優勢。一是區塊鏈去中心化的特點,能夠使構建的機構知識庫平臺更具安全性和可信任度,使收集的科研數據更加準確規范。二是區塊鏈技術中的分布式賬本、塊鏈式數據結構、非對稱性加密算法和智能合約的技術,能保證機構數據庫中的科學數據不可篡改,為保障機構數據庫中的數據存儲安全提供保障。三是區塊鏈技術的去中心化,使得網絡中的信息傳播速度和資源利用效率大大提高,可以為用戶一站式檢索和使用提供極大方便。四是運用區塊鏈中的全民記賬和非對稱加密算法,可以對上傳科學數據的用戶提供知識產權保護,只有得到用戶提供者解密許可才能下載使用信息,數據安全性和隱私問題能夠得到解決。因此,下文就結合區塊鏈的基本思想對機構知識庫科學數據監護模型的功能需求及工作原理進行闡述。
2 科學數據監護模型的功能需求
以機構知識庫為基礎的科學數據監護服務需要按照特定的目標、遵循特定的流程、設置相應的功能,再根據功能需求設定功能模塊和層次架構,并進一步闡述模型的工作原理和過程。
一個完整的科學數據監護平臺應涉及數據生命周期的各個環節,涵蓋從數據產生之初到數據存儲、數據利用的循環過程。英國數據監護中心(DCC,Digital Curation Centre)提出的數據監護模型從全局上將數據生命周期劃分為4個階段,分別為信息描述和表示、數據保存計劃、組織觀察和參與、數據監護和保存;并提出了數據監護服務的一般工作和具體工作,涉及數據生產、數據組織、數據共享、數據存儲等多個環節,其服務范圍遍及從科研項目構思到科研成果利用的整個循環過程[13]。
參照DCC的流程劃分和功能設定,本文將科學數據監護劃分為數據采集與評價、數據組織與處理、數據存儲與發布、數據共享與利用四大基本功能,其中的每一項都可以進一步詳細劃分為幾個相互關聯的具體功能,融合雙鏈式區塊鏈技術的相關原理,將能夠實現特定功能的基本模塊按照工作流程有機整合,即可獲得整體的科學數據監護模型。本文所構建的科學數據監護模型擬具備的具體功能如表1所示。
3 融合區塊鏈技術的科學數據監護模型的構建及功能闡述
服務項目,它會在其原有的服務理念范疇內不斷融合新的技術,以實現對科學數據更好地保存、共享和增值。以上四大基本功能和15種具體功能,需要依靠融合了各種技術的不同功能模塊加以實現,其中許多環節在現實中已經有較為成功的實踐案例。因而本文在之后的模型構建環節,將著重從總體上闡釋雙鏈式區塊鏈技術在面向機構知識庫或機構知識庫聯盟的科學數據監護服務中的作用方式,較大程度上保持科學數據監護平臺在具體功能選擇上的靈活性和可擴展性。
推薦閱讀:大數據挖掘的論文投刊指導