2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

查找差異數據子集的過濾規則建模方法

來源:期刊VIP網所屬分類:軟件開發時間:瀏覽:

  摘 要:大數據分析和應用得到了各個行業的關注,人們試圖從大量數據中發現蘊含的模式和規律,進而產生更多的價值,數據過濾作為數據分析過程中常用手段所起到的作用是無可替代的?;诜奖阌脩艨焖俸Y選數據并找到差異性的數據子集的實際需求[1],需要分析與挖掘數據項之間聯系,對數據過濾規則進行建模,以幫助用戶快速定位到差異性的數據子集。在本篇論文中創新性地提出一種查找差異數據子集的過濾規則建模方法。該方法的目的是解決如何在數據分析中應用數據過濾規則建立分析過濾模型,然后利用模型分析過濾得到差異性的數據子集,最后利用模型完成結果集的自動可視化。利用該建模方法建立的數據分析系統能在真實數據集中快速找到差異性數據子集,并且自動完成對結果子集的可視化展示,展現了建模方法的實用性和高效性。

  關鍵詞:數據分析;差異性數據;過濾模型

軟件工程

  《軟件工程師》 征稿對象:各大院校IT相關專業、科研單位及培訓機構的師生。從事企事業單位信息管理及IT相關行業的專業人員等。

  1 引言(Introduction)

  在數據無處不在的時代,用戶的決策越來越受到數據分析的驅動[2]。通常,對于數據分析結果的不同往往能顯著影響決策過程。選擇不當數據,不管是有意的還是無意的,可能導致誤導用戶做出的不合適決策甚至導致錯誤的決策。差異化數據在數據分析中往往具有重要的分析意義,而非差異化的數據對于數據分析的貢獻就比較小,甚至會降低數據分析的質量。所以提供用戶優良的差異性數據過濾模型能引導用戶進行質量更好的數據分析,從而提高用戶的決策質量。

  2 簡介(Brief introduction)

  大數據的快速發展引起了國內外的廣泛關注和重視,如何對大數據進行科學有效地分析處理是大數據領域最核心的問題[3]。分析方法的優劣將決定分析結果的有效與否,將最終影響大數據分析成果的應用。根據國內外的研究將數據分析劃分為描述性統計分析、探索性數據分析以及驗證性數據分析[4];其中,探索性數據分析側重于在數據之中發現新的特征,而驗證性數據分析則側重于已有假設的證實或證偽。本論文的研究方向屬于探索性數據分析中的差異性數據查找方法。

  2.1相關研究

  在查找規律的方法中,粗糙集理論作為一種數據分析處理的理論引人注目[5]。粗糙集理論是處理不確定信息的一種方法??梢詮牟煌陚涞男畔⒅械贸霈F有的規律,并從中提取出一些規則,這些規則代表原始數據集的數據分布。一般的在某些情況下有些信息在某些情況下是無用的或者說是無效的,這時候我們假設在不影響最終決策分類結果的情況下,對此屬性進行約簡去掉無用的屬性并且對約簡后的數據進行規則提取,分析提取出的規則。在屬性簡約的CEBARKCC算法中采用了基于信息熵的方法,去除冗余屬性從而得到一個粗糙集,這個粗糙集是原始數據集的一個子集,相當于對原始數據集做一個抽樣[6]。本文的過濾規則建模方法也是受到這種做法的啟發,與屬性簡約的理念不同的是,本方法主要采用一系列的方法(包括信息熵)對原始數據集的過濾,最終的目的是提取具有最大差異數據的子數據集,這個數據子集不是原始數據集的抽樣,而是原始數據集中具有最大差異性的數據的集合。

  2.2 差異數據探索

  數據分析的目的是把隱沒在一大批看來雜亂無章的數據中的信息集中、萃取和提煉出來,以找出所研究對象的內在規律。數據分析是組織有目的地收集數據、分析數據,使之成為信息的過程。不同領域不同類型的大數據往往需要特定的分析方法來對數據進行分析,此類數據分析要求分析者對該領域數據有較為深入的理解,這就意味著分析者需要擁有專業領域的知識背景。本論文提出的目的就在于希望通過建立差異化數據分析過濾模型協助分析者對差異化的數據進行快速的分析探索。即使是沒有分析經驗的分析者,面對大數據時利用本論文提出的分析過濾模型都能使用適當的方法探索分析出數據集中的差異化的數據。

  在大數據探索式場景中,面對大量數據時分析者很難找出差異化的數據。為了使用戶能夠盡可能消除容易出錯的數據探索過程和煩瑣的過濾條件設置,直截了當地得到差異化數據子集。毫無疑問的是我們需要一個標準化的流程來決定該如何進行數據的選擇。為了實現這個目標,本論文提出一種差異數據子集的過濾規則識別方法,目的是通過合理的利用算法和設定相關的規則解決如何在數據分析中應用數據過濾規則建立分析過濾模型,并利用模型分析過濾數據,最后智能化的展示結果數據。

  建立良好的數據過濾規則面臨以下的這些問題亟待解決:

  (1)維度:考慮從什么維度進行分析過濾才能產生更好的差異化分析結果。

  (2)可解釋性:過濾模型需要能分析出數據之間的潛在關聯,產生能過濾出差異化數據的過濾條件。

  (3)質量:如何判定分析的質量。

  在接下來的章節中我們會詳細地討論如何利用我們的建模方法在來解決上述三個問題。

  3 問題闡述及解決(Problem description and solution)

  3.1 問題闡述

  當用戶打開數據集時,面對著成百上千的原始數據往往不知道該如何分析哪些數據子集。如果用戶對原始數據沒有一定的了解,也就不會知道數據之間的聯系,更加不可能知道數據之間是否存在某種潛在聯系。因此需要考慮如何選取差異化的維度,使得數據的分析能產生足夠差異化的特征表現[7]。

  選取了適合的維度以后,該如何分析選定維度中數據的相互聯系,如何定義在該維度數據下的差異化數據,進而選定適合的過濾條件并通過過濾找到其中的差異化數據。這個問題我們在之后會詳細討論如何解決。

  在常用的數據分析工具中常用可視化作為直觀地展示數據分析結果的手段,可視化同時作為評判數據分析結果的質量。但是在常用的數據分析工具中需要用戶自己選擇如何對結果數據集可視化。有經驗的分析師能憑借經驗知道該如何選擇,對于新手來說那就要經過多次的試錯才能達到理想的數據展示效果。如果能自動的判定用戶選定的數據該如何生成可視化圖表,就能大大的幫助到用戶檢驗數據分析的質量。事實上,我們的差異化數據分析過濾模型面對著該如何采用智能化的方法為用戶可視化的問題,即如何使用可視化直觀的呈現用戶數據分析的結果。

  3.2 解決方案

  關于維度的選擇和差異化數據過濾條件,本論文基于傳統數據庫的表結構,從行和列兩個維度分析差異化數據。首先通過列數據的分析過濾,查找可能具有差異化信息的數據列,之后通過一系列的關于差異數據的信息計算算法,找到具有差異性特征的數據子集,最后通過可視化展示差異性數據查找的質量。

  總結來說就是在差異性數據過濾模型中有三個過濾規則:差異性數據列的過濾、差異數據范圍的過濾、結果可視化的過濾。使用過濾模型進行差異化數據查找流程如圖1所示。

  圖1 差異化數據過濾模型過濾流程

  Fig.1 The filtering process of differentiated data

  filtering model

  實踐證明通過以上過濾規則引導用戶進行差異性數據分析,能明顯提升用戶分析差異性數據的質量。在接下來的章節4.1介紹數據列的過濾規則建模方法;4.2中介紹數據范圍的過濾規則建模方法;4.3中介紹結果數據可視化的過濾規則建模方法。

  4 建模方法(Modeling approach)

  接著具體介紹一下如何根據數據集本身特征,以及用戶的真實需求產生適當的數據列差異性分析過濾。

  4.1 差異數據列的過濾

  數據集D里面有很多數據列等待差異性分析,對于沒有分析經驗的普通用戶來說,并不知道哪些數據列具有差異性數據。而數據列的差異性分析過濾不僅能幫助用戶方便的分析數據列之間的聯系,更能幫助用戶挖掘數據列之間的潛在聯系,用戶通過分析過濾模型得到最有可能具有差異性數據子集的數據列。

  4.1.1 對于指定關鍵列差異性分析的列過濾

  當用戶指定關鍵列時,一般來說,用戶希望得到相關數據列對于關鍵列的差異性是否具有影響,并希望知道這些相關列對于關鍵列差異性的影響因子。因此,指定的關鍵列的差異性分析過濾核心思想就是在數據集D中計算相關列對于關鍵列所產生影響的影響因子,然后根據影響因子大小排序進行過濾。本部分過濾模型采用隨機森林的方法完成相關列的過濾。隨機森林[8]計算影響因子的核心思想就是計算每個特征列在隨機森林中的每顆CART樹(最小二乘回歸樹)上做了多大的貢獻,然后取個平均值,比較特征之間的貢獻大小。貢獻度通常用基尼指數(Gini index)或者袋外數據(OOB)錯誤率作為評價指標來衡量。本論文采用的是袋外數據(OOB)錯誤率作為評價指標來衡量貢獻度。方法的偽代碼如下Algorithm 1所示。

  之所以可以用∑(err00B2-errOOB1)/Ntree這個表達式作為相應特征列影響因子的度量值是因為若給某個特征列隨機加入噪聲之后,袋外的準確率大幅度下降,則說明這個特征列對于關鍵列的分類結果影響很大,也就是說它對于關鍵列的差異性影響程度比較高。

主站蜘蛛池模板: 大丰市| 弥渡县| 新昌县| 扬州市| 镇坪县| 浦县| 靖江市| 阿坝县| 石台县| 武汉市| 玛曲县| 宣威市| 黄冈市| 龙泉市| 泾源县| 南皮县| 丹巴县| 木里| 天津市| 图们市| 蛟河市| 弋阳县| 玉山县| 翁牛特旗| 青海省| 盖州市| 陕西省| 邵阳市| 盐津县| 余江县| 通辽市| 揭西县| 和平区| 深圳市| 霍林郭勒市| 安塞县| 清水河县| 大连市| 武邑县| 钦州市| 武强县|