期刊VIP學術指導 符合學術規范和道德
保障品質 保證專業,沒有后顧之憂
這篇煙草局職稱論文發表了大數據技術在煙草數據中心的應用,很多企業都積累了海量的數據,從而更好的為企業自身發展和客戶服務提供幫助,對于煙草中心這樣的企業來說,大數據同樣重要,通過大數據的使用,展現了大數據技術帶來的遠超傳統技術平臺的靈活性以及對于大數據量查詢的快速響應能力。
關鍵詞:煙草局職稱論文,數據中心,大數據
1.大數據技術現狀
當前許多企業都已基本實現了信息化建設,企業積累了海量數據。同時企業間的競爭日益加劇,企業為了生存及發展需要保證自身能夠更加準確、快速和個性化地為客戶提供產品及服務。而大數據技術能夠從海量的數據中獲取傳統數據分析手段無法獲知的價值和模式,幫助企業更加迅速、科學、準確地進行決策和預測。
1.1大數據技術現狀
廣大企業的迫切需求反之也促進了大數據技術的飛速發展,涌現出了諸如Hadoop、Spark等實用的架構平臺。其中,目前最主流的就是Hadoop。Hadoop的分布式處理架構支持大規模的集群,允許使用簡單的編程模型進行跨計算機集群的分布式大數據處理。通過使用專門為分布式計算設計的文件系統HDFS,計算的時候只需要將計算代碼推送到存儲節點上,即可在存儲節點上完成數據本地化計算。因此,Hadoop實現了高可靠性、高可拓展性、高容錯性和高效性,可以輕松應對PB級別的數據處理。
1.2大數據技術對煙草數據中心建設的影響
當前,煙草企業基于多年的信息化建設已經積累了海量數據,同時每天還不斷有新的各種數據產生。在高并發、大體量的情況下,需要在數據采集、存儲和運算方面采用與以往完全不同的計算存儲模式,這就不可避免地需要采用大數據技術。同時,除了購進單、卷煙交易數據、貨源投放數據等結構化數據外,還產生越來越多的非結構化數據,利用大數據技術,對非結構化數據進行預處理,可為人工判斷和機器學習大大縮減范圍。對海量數據以及非結構化的信息進行分析統計,僅僅依靠傳統的技術手段很難實現,只有引入大數據技術才能充分的將所有的數據資源利用起來,成為企業決策的助力。
2.江蘇煙草數據中心應用現狀
2.1江蘇煙草數據中心體系架構
目前江蘇煙草數據中心以一體化數據中心、一體化數據管理和一體化數據分析三個部分為核心,構建了一套完整的數據中心架構。一體化數據中心是整個數據中心最核心的部分。通過數據倉庫模型、數據存儲、ETL工具等組成部分,構建了業務數據的收集、加工、存儲、分發的總體架構。建立了按ODS(SODS、UODS)、DW、DM三層結構設計建設的數據倉庫。一體化數據管理通過主數據管理、信息代碼管理、ESB平臺構建了企業主數據收集、標準化、同步分發過程。結合指標管理,全面管控企業的公用基礎信息。通過數據質量管理,全面有效管控數據質量。通過數據服務管理,有效提升數據中心的對外服務能力與水平。通過元數據管理來管理數據中心元數據。一體化數據分析通過構建移動信息、業務分析、數據挖掘三大模塊,針對性解決當前不同人員的決策、管理以及操作需求,發揮數據中心的數據、技術、平臺優勢。通過移動信息模塊為各級領導提供決策支持;通過業務分析模塊為業務人員的日常工作提供支撐;通過數據挖掘模塊,發掘數據所蘊含的隱性價值。基于上述一整套架構的支撐,目前數據中心構建了全省范圍的數據集成、交換體系,一方面提升了全省基礎數據、業務數據的規范化程度和數據質量,另一方面為在建業務系統的實施、已有系統的改造提供了標準化的高質量數據保障。
2.2大數據技術的應用場景分析
隨著江蘇數據中心的不斷運行,一些基于傳統技術架構的功能逐漸暴露出種種問題。其中較為突出的問題有:一是使用者對于大數據量數據的查詢需求。基于傳統技術架構的查詢功能響應較慢;二是分析支持靈活性的不足。傳統統計分析應用的數據結構大多是預先定義好的,面對靈活的非傳統的統計查詢需求難以支撐,需要進行額外的加工處理。江蘇煙草數據中心結合互聯網大數據技術特性,引入Hadoop平臺以及Impala等工具,搭建基于大數據的自定義數據查詢平臺,以補充基于傳統技術架構的功能不足,并為未來進一步發展建設基于大數據技術和云環境的數據中心做好準備。
3.基于大數據的自定義數據查詢平臺實現
3.1設計思路及架構
基于大數據的自定義數據查詢平臺是在現有數據中心的建設成果之上,以數據中心的數據存儲為基礎,以Hadoop、Hive、Impala等大數據技術工具為手段,以簡單靈活、快速高效的查詢展現為目標,建立的數據查詢分析支持平臺。
3.2技術方案
自定義數據查詢平臺的建設主要涉及數據存儲架構、后臺數據加工準備、前端展現三塊內容。自定義數據查詢平臺的數據存儲分為兩部分。一部分為KETTLE、Impala等工具以及自定義查詢相關的元數據存儲,另一部分則是查詢所需的各種統計數據的存儲。元數據的存儲根據元數據庫的不同主要分為兩部分。第一部分為基于Mysql數據庫的元數據存儲。這部分元數據主要包括有ETL工具KETTLE的元數據,以及前端自定義查詢需要定義的權限、數據源、表、列和表列關系等信息。第二部分為基于Hive的元數據存儲。這部分存儲的是前端查詢需要使用的Impala工具的元數據。統計數據的存儲則是使用Hadoop的HDFS實現的。根據Hadoop平臺架構,自定義數據查詢平臺的HDFS建立在6臺虛擬主機構建的集群上的。其中:2臺虛擬主機作為NameNode,一臺為主節點,另一臺為備份節點;其余4臺虛擬主機都作為DataNode用于存儲數據。所有數據將會統一分塊自動分配存儲到4個DataNode上。自定義數據查詢平臺的數據加工,是通過開源ETL工具KETTLE實現的。通過KETTLE從數據中心現有數據倉庫及數據集市中讀取需要的數據,根據自定義數據查詢平臺的數據模型定義對數據進行處理,最終加載到Hadoop的HDFS文件系統中。自定義數據查詢平臺的前端展現功能,主要是基于JSP技術實現頁面開發,通過JDBC或者ODBC對后臺Mysql數據庫進行訪問。使用者在查詢頁面中組織定義查詢的內容,查詢服務自動根據獲取的元數據信息將定義的查詢內容拼接轉換成為查詢SQL,之后通過Impala執行查詢SQL對HDFS文件系統中的統計數據進行查詢。
3.3系統實現效果
利用大數據技術,自定義數據查詢平臺較好地解決了目前數據中心所面對的問題,滿足了使用人員對于大數據量以及分析靈活性的需求。面對使用人員層出不窮的查詢需求,自定義數據查詢平臺通過預先梳理、分類定義各種維度以及統計指標。使用者可以自由的根據實際需求選擇分析所需的維度及統計指標,同時還可以基于這些基礎的內容更進一步自定義過濾條件以及計算公式,并指定其展現形式。在大數據量查詢效率方面,自定義查詢平臺相比傳統架構的查詢功能有了較大提升。
4.結束語
大數據技術的發展方興未艾,應用前景無比廣闊,對各行各業的巨大作用正在逐步展現。江蘇煙草數據中心的建設既要看到大數據技術未來的前景,更需要明確地認識到大數據平臺的建設并非一朝一夕,需要有明確而長遠的規劃,不斷完善數據環境建設、云計算環境的構建以及數據服務的擴展。
參考文獻
[1]陳鵬.大數據時代下的信息安全問題研究[J].電子制,2015,18:48
[2]劉憶魯,劉長銀,侯艷權.大數據時代下的信息安全問題論述[J].信息通信.2016,181-182
[3]崔洪剛,唐浩,汪永超.大數據時代下的信息安全問題研究[J].通訊世界,2016,07:239
作者:郭文卓 王子豪 單位:中國煙草總公司江蘇省公司
推薦閱讀:《中國煙草科學》《中國煙草科學》(雙月刊)創刊于1979年,是由中華人民共和國農業部主管、中國農業科學院煙草研究所、中國煙草總公司青州煙草研究所主辦的學術類科技期刊。