2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

查找差異數(shù)據(jù)子集的過(guò)濾規(guī)則建模方法

來(lái)源:期刊VIP網(wǎng)所屬分類(lèi):軟件開(kāi)發(fā)時(shí)間:瀏覽:

  摘 要:大數(shù)據(jù)分析和應(yīng)用得到了各個(gè)行業(yè)的關(guān)注,人們?cè)噲D從大量數(shù)據(jù)中發(fā)現(xiàn)蘊(yùn)含的模式和規(guī)律,進(jìn)而產(chǎn)生更多的價(jià)值,數(shù)據(jù)過(guò)濾作為數(shù)據(jù)分析過(guò)程中常用手段所起到的作用是無(wú)可替代的。基于方便用戶(hù)快速篩選數(shù)據(jù)并找到差異性的數(shù)據(jù)子集的實(shí)際需求[1],需要分析與挖掘數(shù)據(jù)項(xiàng)之間聯(lián)系,對(duì)數(shù)據(jù)過(guò)濾規(guī)則進(jìn)行建模,以幫助用戶(hù)快速定位到差異性的數(shù)據(jù)子集。在本篇論文中創(chuàng)新性地提出一種查找差異數(shù)據(jù)子集的過(guò)濾規(guī)則建模方法。該方法的目的是解決如何在數(shù)據(jù)分析中應(yīng)用數(shù)據(jù)過(guò)濾規(guī)則建立分析過(guò)濾模型,然后利用模型分析過(guò)濾得到差異性的數(shù)據(jù)子集,最后利用模型完成結(jié)果集的自動(dòng)可視化。利用該建模方法建立的數(shù)據(jù)分析系統(tǒng)能在真實(shí)數(shù)據(jù)集中快速找到差異性數(shù)據(jù)子集,并且自動(dòng)完成對(duì)結(jié)果子集的可視化展示,展現(xiàn)了建模方法的實(shí)用性和高效性。

  關(guān)鍵詞:數(shù)據(jù)分析;差異性數(shù)據(jù);過(guò)濾模型

軟件工程

  《軟件工程師》 征稿對(duì)象:各大院校IT相關(guān)專(zhuān)業(yè)、科研單位及培訓(xùn)機(jī)構(gòu)的師生。從事企事業(yè)單位信息管理及IT相關(guān)行業(yè)的專(zhuān)業(yè)人員等。

  1 引言(Introduction)

  在數(shù)據(jù)無(wú)處不在的時(shí)代,用戶(hù)的決策越來(lái)越受到數(shù)據(jù)分析的驅(qū)動(dòng)[2]。通常,對(duì)于數(shù)據(jù)分析結(jié)果的不同往往能顯著影響決策過(guò)程。選擇不當(dāng)數(shù)據(jù),不管是有意的還是無(wú)意的,可能導(dǎo)致誤導(dǎo)用戶(hù)做出的不合適決策甚至導(dǎo)致錯(cuò)誤的決策。差異化數(shù)據(jù)在數(shù)據(jù)分析中往往具有重要的分析意義,而非差異化的數(shù)據(jù)對(duì)于數(shù)據(jù)分析的貢獻(xiàn)就比較小,甚至?xí)档蛿?shù)據(jù)分析的質(zhì)量。所以提供用戶(hù)優(yōu)良的差異性數(shù)據(jù)過(guò)濾模型能引導(dǎo)用戶(hù)進(jìn)行質(zhì)量更好的數(shù)據(jù)分析,從而提高用戶(hù)的決策質(zhì)量。

  2 簡(jiǎn)介(Brief introduction)

  大數(shù)據(jù)的快速發(fā)展引起了國(guó)內(nèi)外的廣泛關(guān)注和重視,如何對(duì)大數(shù)據(jù)進(jìn)行科學(xué)有效地分析處理是大數(shù)據(jù)領(lǐng)域最核心的問(wèn)題[3]。分析方法的優(yōu)劣將決定分析結(jié)果的有效與否,將最終影響大數(shù)據(jù)分析成果的應(yīng)用。根據(jù)國(guó)內(nèi)外的研究將數(shù)據(jù)分析劃分為描述性統(tǒng)計(jì)分析、探索性數(shù)據(jù)分析以及驗(yàn)證性數(shù)據(jù)分析[4];其中,探索性數(shù)據(jù)分析側(cè)重于在數(shù)據(jù)之中發(fā)現(xiàn)新的特征,而驗(yàn)證性數(shù)據(jù)分析則側(cè)重于已有假設(shè)的證實(shí)或證偽。本論文的研究方向?qū)儆谔剿餍詳?shù)據(jù)分析中的差異性數(shù)據(jù)查找方法。

  2.1相關(guān)研究

  在查找規(guī)律的方法中,粗糙集理論作為一種數(shù)據(jù)分析處理的理論引人注目[5]。粗糙集理論是處理不確定信息的一種方法。可以從不完備的信息中得出現(xiàn)有的規(guī)律,并從中提取出一些規(guī)則,這些規(guī)則代表原始數(shù)據(jù)集的數(shù)據(jù)分布。一般的在某些情況下有些信息在某些情況下是無(wú)用的或者說(shuō)是無(wú)效的,這時(shí)候我們假設(shè)在不影響最終決策分類(lèi)結(jié)果的情況下,對(duì)此屬性進(jìn)行約簡(jiǎn)去掉無(wú)用的屬性并且對(duì)約簡(jiǎn)后的數(shù)據(jù)進(jìn)行規(guī)則提取,分析提取出的規(guī)則。在屬性簡(jiǎn)約的CEBARKCC算法中采用了基于信息熵的方法,去除冗余屬性從而得到一個(gè)粗糙集,這個(gè)粗糙集是原始數(shù)據(jù)集的一個(gè)子集,相當(dāng)于對(duì)原始數(shù)據(jù)集做一個(gè)抽樣[6]。本文的過(guò)濾規(guī)則建模方法也是受到這種做法的啟發(fā),與屬性簡(jiǎn)約的理念不同的是,本方法主要采用一系列的方法(包括信息熵)對(duì)原始數(shù)據(jù)集的過(guò)濾,最終的目的是提取具有最大差異數(shù)據(jù)的子數(shù)據(jù)集,這個(gè)數(shù)據(jù)子集不是原始數(shù)據(jù)集的抽樣,而是原始數(shù)據(jù)集中具有最大差異性的數(shù)據(jù)的集合。

  2.2 差異數(shù)據(jù)探索

  數(shù)據(jù)分析的目的是把隱沒(méi)在一大批看來(lái)雜亂無(wú)章的數(shù)據(jù)中的信息集中、萃取和提煉出來(lái),以找出所研究對(duì)象的內(nèi)在規(guī)律。數(shù)據(jù)分析是組織有目的地收集數(shù)據(jù)、分析數(shù)據(jù),使之成為信息的過(guò)程。不同領(lǐng)域不同類(lèi)型的大數(shù)據(jù)往往需要特定的分析方法來(lái)對(duì)數(shù)據(jù)進(jìn)行分析,此類(lèi)數(shù)據(jù)分析要求分析者對(duì)該領(lǐng)域數(shù)據(jù)有較為深入的理解,這就意味著分析者需要擁有專(zhuān)業(yè)領(lǐng)域的知識(shí)背景。本論文提出的目的就在于希望通過(guò)建立差異化數(shù)據(jù)分析過(guò)濾模型協(xié)助分析者對(duì)差異化的數(shù)據(jù)進(jìn)行快速的分析探索。即使是沒(méi)有分析經(jīng)驗(yàn)的分析者,面對(duì)大數(shù)據(jù)時(shí)利用本論文提出的分析過(guò)濾模型都能使用適當(dāng)?shù)姆椒ㄌ剿鞣治龀鰯?shù)據(jù)集中的差異化的數(shù)據(jù)。

  在大數(shù)據(jù)探索式場(chǎng)景中,面對(duì)大量數(shù)據(jù)時(shí)分析者很難找出差異化的數(shù)據(jù)。為了使用戶(hù)能夠盡可能消除容易出錯(cuò)的數(shù)據(jù)探索過(guò)程和煩瑣的過(guò)濾條件設(shè)置,直截了當(dāng)?shù)氐玫讲町惢瘮?shù)據(jù)子集。毫無(wú)疑問(wèn)的是我們需要一個(gè)標(biāo)準(zhǔn)化的流程來(lái)決定該如何進(jìn)行數(shù)據(jù)的選擇。為了實(shí)現(xiàn)這個(gè)目標(biāo),本論文提出一種差異數(shù)據(jù)子集的過(guò)濾規(guī)則識(shí)別方法,目的是通過(guò)合理的利用算法和設(shè)定相關(guān)的規(guī)則解決如何在數(shù)據(jù)分析中應(yīng)用數(shù)據(jù)過(guò)濾規(guī)則建立分析過(guò)濾模型,并利用模型分析過(guò)濾數(shù)據(jù),最后智能化的展示結(jié)果數(shù)據(jù)。

  建立良好的數(shù)據(jù)過(guò)濾規(guī)則面臨以下的這些問(wèn)題亟待解決:

  (1)維度:考慮從什么維度進(jìn)行分析過(guò)濾才能產(chǎn)生更好的差異化分析結(jié)果。

  (2)可解釋性:過(guò)濾模型需要能分析出數(shù)據(jù)之間的潛在關(guān)聯(lián),產(chǎn)生能過(guò)濾出差異化數(shù)據(jù)的過(guò)濾條件。

  (3)質(zhì)量:如何判定分析的質(zhì)量。

  在接下來(lái)的章節(jié)中我們會(huì)詳細(xì)地討論如何利用我們的建模方法在來(lái)解決上述三個(gè)問(wèn)題。

  3 問(wèn)題闡述及解決(Problem description and solution)

  3.1 問(wèn)題闡述

  當(dāng)用戶(hù)打開(kāi)數(shù)據(jù)集時(shí),面對(duì)著成百上千的原始數(shù)據(jù)往往不知道該如何分析哪些數(shù)據(jù)子集。如果用戶(hù)對(duì)原始數(shù)據(jù)沒(méi)有一定的了解,也就不會(huì)知道數(shù)據(jù)之間的聯(lián)系,更加不可能知道數(shù)據(jù)之間是否存在某種潛在聯(lián)系。因此需要考慮如何選取差異化的維度,使得數(shù)據(jù)的分析能產(chǎn)生足夠差異化的特征表現(xiàn)[7]。

  選取了適合的維度以后,該如何分析選定維度中數(shù)據(jù)的相互聯(lián)系,如何定義在該維度數(shù)據(jù)下的差異化數(shù)據(jù),進(jìn)而選定適合的過(guò)濾條件并通過(guò)過(guò)濾找到其中的差異化數(shù)據(jù)。這個(gè)問(wèn)題我們?cè)谥髸?huì)詳細(xì)討論如何解決。

  在常用的數(shù)據(jù)分析工具中常用可視化作為直觀(guān)地展示數(shù)據(jù)分析結(jié)果的手段,可視化同時(shí)作為評(píng)判數(shù)據(jù)分析結(jié)果的質(zhì)量。但是在常用的數(shù)據(jù)分析工具中需要用戶(hù)自己選擇如何對(duì)結(jié)果數(shù)據(jù)集可視化。有經(jīng)驗(yàn)的分析師能憑借經(jīng)驗(yàn)知道該如何選擇,對(duì)于新手來(lái)說(shuō)那就要經(jīng)過(guò)多次的試錯(cuò)才能達(dá)到理想的數(shù)據(jù)展示效果。如果能自動(dòng)的判定用戶(hù)選定的數(shù)據(jù)該如何生成可視化圖表,就能大大的幫助到用戶(hù)檢驗(yàn)數(shù)據(jù)分析的質(zhì)量。事實(shí)上,我們的差異化數(shù)據(jù)分析過(guò)濾模型面對(duì)著該如何采用智能化的方法為用戶(hù)可視化的問(wèn)題,即如何使用可視化直觀(guān)的呈現(xiàn)用戶(hù)數(shù)據(jù)分析的結(jié)果。

  3.2 解決方案

  關(guān)于維度的選擇和差異化數(shù)據(jù)過(guò)濾條件,本論文基于傳統(tǒng)數(shù)據(jù)庫(kù)的表結(jié)構(gòu),從行和列兩個(gè)維度分析差異化數(shù)據(jù)。首先通過(guò)列數(shù)據(jù)的分析過(guò)濾,查找可能具有差異化信息的數(shù)據(jù)列,之后通過(guò)一系列的關(guān)于差異數(shù)據(jù)的信息計(jì)算算法,找到具有差異性特征的數(shù)據(jù)子集,最后通過(guò)可視化展示差異性數(shù)據(jù)查找的質(zhì)量。

  總結(jié)來(lái)說(shuō)就是在差異性數(shù)據(jù)過(guò)濾模型中有三個(gè)過(guò)濾規(guī)則:差異性數(shù)據(jù)列的過(guò)濾、差異數(shù)據(jù)范圍的過(guò)濾、結(jié)果可視化的過(guò)濾。使用過(guò)濾模型進(jìn)行差異化數(shù)據(jù)查找流程如圖1所示。

  圖1 差異化數(shù)據(jù)過(guò)濾模型過(guò)濾流程

  Fig.1 The filtering process of differentiated data

  filtering model

  實(shí)踐證明通過(guò)以上過(guò)濾規(guī)則引導(dǎo)用戶(hù)進(jìn)行差異性數(shù)據(jù)分析,能明顯提升用戶(hù)分析差異性數(shù)據(jù)的質(zhì)量。在接下來(lái)的章節(jié)4.1介紹數(shù)據(jù)列的過(guò)濾規(guī)則建模方法;4.2中介紹數(shù)據(jù)范圍的過(guò)濾規(guī)則建模方法;4.3中介紹結(jié)果數(shù)據(jù)可視化的過(guò)濾規(guī)則建模方法。

  4 建模方法(Modeling approach)

  接著具體介紹一下如何根據(jù)數(shù)據(jù)集本身特征,以及用戶(hù)的真實(shí)需求產(chǎn)生適當(dāng)?shù)臄?shù)據(jù)列差異性分析過(guò)濾。

  4.1 差異數(shù)據(jù)列的過(guò)濾

  數(shù)據(jù)集D里面有很多數(shù)據(jù)列等待差異性分析,對(duì)于沒(méi)有分析經(jīng)驗(yàn)的普通用戶(hù)來(lái)說(shuō),并不知道哪些數(shù)據(jù)列具有差異性數(shù)據(jù)。而數(shù)據(jù)列的差異性分析過(guò)濾不僅能幫助用戶(hù)方便的分析數(shù)據(jù)列之間的聯(lián)系,更能幫助用戶(hù)挖掘數(shù)據(jù)列之間的潛在聯(lián)系,用戶(hù)通過(guò)分析過(guò)濾模型得到最有可能具有差異性數(shù)據(jù)子集的數(shù)據(jù)列。

  4.1.1 對(duì)于指定關(guān)鍵列差異性分析的列過(guò)濾

  當(dāng)用戶(hù)指定關(guān)鍵列時(shí),一般來(lái)說(shuō),用戶(hù)希望得到相關(guān)數(shù)據(jù)列對(duì)于關(guān)鍵列的差異性是否具有影響,并希望知道這些相關(guān)列對(duì)于關(guān)鍵列差異性的影響因子。因此,指定的關(guān)鍵列的差異性分析過(guò)濾核心思想就是在數(shù)據(jù)集D中計(jì)算相關(guān)列對(duì)于關(guān)鍵列所產(chǎn)生影響的影響因子,然后根據(jù)影響因子大小排序進(jìn)行過(guò)濾。本部分過(guò)濾模型采用隨機(jī)森林的方法完成相關(guān)列的過(guò)濾。隨機(jī)森林[8]計(jì)算影響因子的核心思想就是計(jì)算每個(gè)特征列在隨機(jī)森林中的每顆CART樹(shù)(最小二乘回歸樹(shù))上做了多大的貢獻(xiàn),然后取個(gè)平均值,比較特征之間的貢獻(xiàn)大小。貢獻(xiàn)度通常用基尼指數(shù)(Gini index)或者袋外數(shù)據(jù)(OOB)錯(cuò)誤率作為評(píng)價(jià)指標(biāo)來(lái)衡量。本論文采用的是袋外數(shù)據(jù)(OOB)錯(cuò)誤率作為評(píng)價(jià)指標(biāo)來(lái)衡量貢獻(xiàn)度。方法的偽代碼如下Algorithm 1所示。

  之所以可以用∑(err00B2-errOOB1)/Ntree這個(gè)表達(dá)式作為相應(yīng)特征列影響因子的度量值是因?yàn)槿艚o某個(gè)特征列隨機(jī)加入噪聲之后,袋外的準(zhǔn)確率大幅度下降,則說(shuō)明這個(gè)特征列對(duì)于關(guān)鍵列的分類(lèi)結(jié)果影響很大,也就是說(shuō)它對(duì)于關(guān)鍵列的差異性影響程度比較高。

主站蜘蛛池模板: 武山县| 慈利县| 双辽市| 通州区| 乡宁县| 开阳县| 醴陵市| 禹城市| 浦江县| 天柱县| 弥勒县| 上栗县| 峨边| 新乡市| 乾安县| 渭南市| 临沧市| 梅州市| 肥乡县| 巴彦淖尔市| 德保县| 琼中| 高邮市| 合山市| 南乐县| 荣昌县| 安徽省| 天镇县| 武夷山市| 南丰县| 玉环县| 平武县| 玉树县| 鲜城| 淳安县| 鲁甸县| 清涧县| 张家川| 伊宁市| 乐业县| 黎平县|