期刊VIP學(xué)術(shù)指導(dǎo) 符合學(xué)術(shù)規(guī)范和道德
保障品質(zhì) 保證專業(yè),沒(méi)有后顧之憂
來(lái)源:期刊VIP網(wǎng)所屬分類:新聞傳播時(shí)間:瀏覽:次
[摘要]:電視臺(tái)的網(wǎng)站是通過(guò)防火墻將內(nèi)部網(wǎng)與外部網(wǎng)進(jìn)行分隔,現(xiàn)在在WEB服務(wù)器與防火墻之間新設(shè)一臺(tái)交流中心DB2服務(wù)器,在WEB服務(wù)器上通過(guò)鏈接到此服務(wù)器上,交流中心DB2服務(wù)器上安裝DB2數(shù)據(jù)庫(kù),進(jìn)行登錄人員身份驗(yàn)證,并將各地區(qū)電視臺(tái)和特約記者提交的新聞稿放入到數(shù)據(jù)庫(kù)中,應(yīng)用軟件能對(duì)各種稿件進(jìn)行分類處理,建立一個(gè)稿件數(shù)據(jù)庫(kù),各地區(qū)電視臺(tái)和特約記者能隨時(shí)查閱、下載。
[關(guān)鍵詞]:數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘技術(shù),新聞中心
一、數(shù)據(jù)倉(cāng)庫(kù)(DW)
80年代初,W.H.Inmon在“記錄系統(tǒng)”、“原子數(shù)據(jù)”和“決策支持系統(tǒng)”等專題研究報(bào)告中,提出了數(shù)據(jù)倉(cāng)庫(kù)或信息倉(cāng)庫(kù)的概念并給出了基本框架描述。按照Inmon的觀點(diǎn),數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、非發(fā)散的、具有時(shí)間維的數(shù)據(jù)集合,用來(lái)服務(wù)于管理部門的分析和決策。數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)事務(wù)數(shù)據(jù)庫(kù)相比,主要有如下不同:
(1)數(shù)據(jù)倉(cāng)庫(kù)的第一個(gè)特征就是面向企業(yè)重要的主題,它是一種分析驅(qū)動(dòng)面向主題的數(shù)據(jù)處理技術(shù),而不是傳統(tǒng)的事務(wù)驅(qū)動(dòng)/面向應(yīng)用的數(shù)據(jù)處理方式。例如事務(wù)數(shù)據(jù)庫(kù)是針對(duì)諸如貸款、財(cái)務(wù)、工資、人事等功能和應(yīng)用設(shè)計(jì)的,而數(shù)據(jù)倉(cāng)庫(kù)則主要針對(duì)諸如顧客、供應(yīng)商、產(chǎn)品等主題而設(shè)計(jì)。數(shù)據(jù)倉(cāng)庫(kù)追求整體最優(yōu),服務(wù)于管理分析與決策。事務(wù)數(shù)據(jù)庫(kù)追求單一的處理最優(yōu),服務(wù)于在線事務(wù)處理。
(2)數(shù)據(jù)倉(cāng)庫(kù)的另一個(gè)重要的特征就是其數(shù)據(jù)是集成化的,如一致的命名規(guī)則、一致的度量單位、一致的編碼規(guī)則、一致的數(shù)據(jù)物理屬性等。比如:在事務(wù)數(shù)據(jù)庫(kù)中,時(shí)間的表示方法在應(yīng)用A中為date (yymmdd ),在應(yīng)用B中為date ( mmddyy ),那么導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)中后統(tǒng)一為date ( yymmdd ) 。這樣保證了數(shù)據(jù)的可靠性與一致性。
(3)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)不是一個(gè)時(shí)刻的數(shù)據(jù),而是一個(gè)時(shí)間段的數(shù)據(jù),這是數(shù)據(jù)倉(cāng)庫(kù)區(qū)別事務(wù)數(shù)據(jù)庫(kù)的基本特征。事務(wù)數(shù)據(jù)庫(kù)的數(shù)據(jù)對(duì)當(dāng)前是“精確”的,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)對(duì)一個(gè)時(shí)間段來(lái)說(shuō)都是“精確”的,故具有時(shí)間跨度性。
媒體論壇推薦:《視聽(tīng)界》是由中華人民共和國(guó)新聞出版總署、正式批準(zhǔn)公開(kāi)發(fā)行的優(yōu)秀期刊。自創(chuàng)刊以來(lái),以新觀點(diǎn)、新方法、新材料為主題,堅(jiān)持"期期精彩、篇篇可讀"的理念。視聽(tīng)界內(nèi)容詳實(shí)、觀點(diǎn)新穎、文章可讀性強(qiáng)、信息量大,眾多的欄目設(shè)置,視聽(tīng)界公認(rèn)譽(yù)為具有業(yè)內(nèi)影響力的雜志之一。視聽(tīng)界并獲中國(guó)優(yōu)秀期刊獎(jiǎng),現(xiàn)中國(guó)期刊網(wǎng)數(shù)據(jù)庫(kù)全文收錄期刊。
(4)面向應(yīng)用的事務(wù)數(shù)據(jù)庫(kù)的操作基于單個(gè)記錄的插入、更新與刪除,性能敏感、內(nèi)容易變且無(wú)冗余,而面向主題的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的操作基于多個(gè)數(shù)據(jù)源數(shù)據(jù)的成批刷新,性能不敏感、內(nèi)容可有冗余。
由此可以看出,數(shù)據(jù)倉(cāng)庫(kù)主要從歷史的角度描述系統(tǒng)結(jié)構(gòu)和狀態(tài)的變化,它采用能夠反映時(shí)間維特征的數(shù)據(jù)結(jié)構(gòu),將基于多個(gè)同質(zhì)或異質(zhì)事務(wù)數(shù)據(jù)庫(kù)和外部信息作為數(shù)據(jù)源,經(jīng)過(guò)提煉、加工、匯總和歸一化處理,生成符合數(shù)據(jù)應(yīng)用語(yǔ)義規(guī)范要求的數(shù)據(jù)集合,以滿足企業(yè)多種復(fù)雜的信息需求和預(yù)測(cè)分析。
二、數(shù)據(jù)挖掘的技術(shù)含義
談到數(shù)據(jù)挖掘,必須提到數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD: Knowledge Discovery in Databases)。關(guān)于KDD與Data Mining的關(guān)系,有許多不同的看法。我們可以從這些不同的觀點(diǎn)中了解數(shù)據(jù)挖掘的技術(shù)含義。
(1) KDD看成數(shù)據(jù)挖掘的一個(gè)特例
既然數(shù)據(jù)挖掘系統(tǒng)可以在關(guān)系數(shù)據(jù)庫(kù)、事務(wù)數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、空間數(shù)據(jù)庫(kù)(Spatial Database)、文本數(shù)據(jù)(Text Data)以及諸如WEB等多種數(shù)據(jù)組織形式中挖掘知識(shí),那么數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)只是數(shù)據(jù)挖掘的一個(gè)方面。這是早期比較流行的觀點(diǎn),在許多文獻(xiàn)可以看到這種說(shuō)法。因此,從這個(gè)意義說(shuō),數(shù)據(jù)挖掘就是從數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)以及其它數(shù)據(jù)存儲(chǔ)方式中挖掘有用知識(shí)的過(guò)程。這種描述強(qiáng)調(diào)了數(shù)據(jù)挖掘在源數(shù)據(jù)形式上的多樣性。
(2) 數(shù)據(jù)挖掘是KDD過(guò)程的一個(gè)步驟
例如,在“知識(shí)發(fā)現(xiàn)1996國(guó)際會(huì)議” 上,許多學(xué)者建議對(duì)這兩個(gè)名詞加以區(qū)分[6]。核心思想是:KDD是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)的全部過(guò)程,而Data Mining則是此全部過(guò)程的一個(gè)特定的、關(guān)鍵步驟。這種觀點(diǎn)有它的合理性。雖然我們可以從數(shù)據(jù)倉(cāng)庫(kù)、WEB等源數(shù)據(jù)中挖掘知識(shí),但是這些數(shù)據(jù)源都是和數(shù)據(jù)庫(kù)技術(shù)相關(guān)的。數(shù)據(jù)倉(cāng)庫(kù)是由源數(shù)據(jù)庫(kù)集成而來(lái)的,即使是像WEB這樣的數(shù)據(jù)源恐怕也離不開(kāi)數(shù)據(jù)庫(kù)技術(shù)來(lái)組織和存儲(chǔ)抽取的信息。因此KDD是一個(gè)更廣義的范疇,它包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式生成及評(píng)估等一系列步驟。這樣,我們可以把KDD看作是一些基本功能構(gòu)件的系統(tǒng)化協(xié)同工作系統(tǒng),而數(shù)據(jù)挖掘則是這個(gè)系統(tǒng)中的一個(gè)關(guān)鍵的部分。源數(shù)據(jù)經(jīng)過(guò)清洗和轉(zhuǎn)換等成為適合于挖掘的數(shù)據(jù)集,數(shù)據(jù)挖掘在這種具有固定形式的數(shù)據(jù)集上完成知識(shí)的提煉,最后以合適的知識(shí)模式用于進(jìn)一步分析決策工作。從這種狹義的觀點(diǎn)上,我們可以定義數(shù)據(jù)挖掘是從特定形式的數(shù)據(jù)集中提煉知識(shí)的過(guò)程。數(shù)據(jù)挖掘作為KDD的一個(gè)重要步驟看待,可以使我們更容易聚焦研究重點(diǎn),有效解決問(wèn)題。目前,人們?cè)跀?shù)據(jù)挖掘算法的研究上,基本屬于這樣的范疇。
(3)KDD與Data Mining含義相同
有些人認(rèn)為,KDD與Data Mining只是叫法不一樣,它們的含義基本相同。事實(shí)上,在現(xiàn)今的文獻(xiàn)中,許多場(chǎng)合,如技術(shù)綜述等,這兩個(gè)術(shù)語(yǔ)仍然不加區(qū)分地使用著。也有人說(shuō),KDD在人工智能界更流行;Data Mining在數(shù)據(jù)庫(kù)界使用更多。所以,從廣義的觀點(diǎn),數(shù)據(jù)挖掘是從大型數(shù)據(jù)集(可能是不完全的、有噪聲的、不確定性的、各種存儲(chǔ)形式的)中,挖掘隱含在其中的、人們事先不知道的、對(duì)決策有用的知識(shí)的過(guò)程。
從上面的描述中可以看出,數(shù)據(jù)挖掘概念可以在不同的技術(shù)層面上來(lái)理解,但是其核心仍然是從數(shù)據(jù)中挖掘知識(shí)。所以,有人說(shuō)叫知識(shí)挖掘更合適。本文使用數(shù)據(jù)挖掘的狹義定義。
三、新聞中心數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)
新聞中心信息交流系統(tǒng)是要在電視臺(tái)網(wǎng)站下建立一個(gè)新聞信息交流中心。各地區(qū)電視臺(tái)和特約記者通過(guò)Internet訪問(wèn)該新聞交流網(wǎng)站,通過(guò)身份認(rèn)證進(jìn)入交流中心,可以利用該中心提交新聞稿,查看其它地方臺(tái)的稿件、采訪計(jì)劃,進(jìn)行新聞交流,并查看省臺(tái)串聯(lián)單信息。電視臺(tái)新聞部可以通過(guò)該中心進(jìn)行約稿,公布約稿情況。
由于安全需要,各地區(qū)電視臺(tái)和特約記者不能直接進(jìn)入到新聞部的服務(wù)器,而新聞部又必須能取得上傳的新聞稿,所以我設(shè)計(jì)了如下的系統(tǒng)結(jié)構(gòu):
WEB服務(wù)器
交流中心DB2服務(wù)器
防火墻
新聞部DB2服務(wù)器
電視臺(tái)服務(wù)器
防火墻能防止登錄人員進(jìn)入到電視臺(tái)內(nèi)部網(wǎng)中,而讓新聞部DB2服務(wù)器對(duì)交流中心DB2服務(wù)器進(jìn)行訪問(wèn),這樣,新聞部就能及時(shí)地將各地區(qū)電視臺(tái)和特約記者提交的稿件取出并存入本地的DB2數(shù)據(jù)中,并能將約稿要求寫入交流中心DB2數(shù)據(jù)庫(kù)中,由登錄用戶提取。
四、新聞中心系統(tǒng)數(shù)據(jù)挖掘
隨著電視臺(tái)信息化過(guò)程的日益完善,提供更為詳細(xì)和智能的決策支持則成為目前信息化的主要目標(biāo)。浙江電視臺(tái)信息中心數(shù)據(jù)倉(cāng)庫(kù)的建成,就為電視臺(tái)進(jìn)一步的信息挖掘提供了可能。我們?cè)谶@個(gè)數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上,建立了關(guān)聯(lián)規(guī)則挖掘模型和判定樹(shù)歸納分類模型,并利用最小二乘法建立新聞稿件數(shù)量預(yù)測(cè)模型。盡管由于時(shí)間關(guān)系沒(méi)有具體實(shí)現(xiàn),但為今后的研究和實(shí)施打下了良好的基礎(chǔ)。
新聞中心內(nèi)部數(shù)據(jù)庫(kù)比較龐大,新聞種類很多,這些新聞種類之間有沒(méi)有什么聯(lián)系呢,工作人員查閱審批這些新聞工作量很大,如果我們能找出各新聞種類之間的聯(lián)系,就可以把相關(guān)內(nèi)容的新聞歸為一類,派一個(gè)人管理,提高工作效率。而且,若我們知道了某類新聞是當(dāng)前的熱點(diǎn),那我們就可以挖掘與這類新聞關(guān)聯(lián)的新聞,多報(bào)道一些相關(guān)聯(lián)的新聞,同樣能提高收視率。要做到這些,就要使用關(guān)聯(lián)規(guī)則的挖掘。
定義:包含k個(gè)項(xiàng)的項(xiàng)集稱為k項(xiàng)集。項(xiàng)集得出現(xiàn)頻率是包含項(xiàng)集的事務(wù)數(shù),簡(jiǎn)稱為項(xiàng)集的頻率、支持計(jì)數(shù)或計(jì)數(shù)。如果項(xiàng)集滿足最小支持度,則稱它為頻繁項(xiàng)集(frequent itemset )。 頻繁k項(xiàng)集的集合通常記為Fk。
Apriozi性質(zhì):頻繁項(xiàng)集的所有非空子集都必須是頻繁的。如果項(xiàng)集F不滿足最小支持度閥值min_sup,則F不是頻繁的,即P (F)
(1)連接:為了通過(guò)Fk-1,找到Fk,先把Fk-1與自己連接產(chǎn)生候選k項(xiàng)集的集合,記為Ck。設(shè)L1和L2是Fk-1中的項(xiàng)集。記號(hào)Li[j]表示Li的第j項(xiàng)。執(zhí)行連接Fk-1>< Fk-1,加果它們前(k-2)項(xiàng)相同,F(xiàn)k-1是可連接的。連接L1和L2產(chǎn)生的結(jié)果項(xiàng)集是L1[1]L1[2]……L1[k-1]L2[k-1]。
(2)剪枝:Ck是Fk的超集,它的成員可以不是頻繁的,但所有的頻繁k項(xiàng)集都在Ck中。掃描數(shù)據(jù)庫(kù),確定Ck中每個(gè)候選的計(jì)數(shù),從而確定Fk。然而,Ck可能很大,這樣所涉及的計(jì)算量就很大。應(yīng)用Apriori性質(zhì),如果一個(gè)候選k項(xiàng)集的(k-1)子集不在Fk-1,中,則該候選也不可能是頻繁的,從而可以由Ck中刪除。
Apriori的候選產(chǎn)生——檢查算法大幅度壓縮了候選項(xiàng)集的大小;并有很好的性能。但是,它還是有兩種不可忽視的開(kāi)銷。
·它可能需要產(chǎn)生大量候選項(xiàng)集。新聞中心數(shù)據(jù)庫(kù)有幾萬(wàn)條記錄,即>1萬(wàn)個(gè)頻繁1項(xiàng)集,則Apriori算法需要產(chǎn)生多達(dá)100萬(wàn)個(gè)個(gè)候選2項(xiàng)集,并累計(jì)和檢查它們的頻繁性。
·它可能需要重復(fù)的掃描數(shù)據(jù)庫(kù),通過(guò)模式匹配檢查一個(gè)很大的候選集合。為發(fā)現(xiàn)長(zhǎng)度為100的頻繁模式,如{a1,...,a100},它必須產(chǎn)生多達(dá)幾萬(wàn)億個(gè)候選。
解決方法:將提供頻繁項(xiàng)集的數(shù)據(jù)庫(kù)壓縮到一顆頻繁樹(shù)(F樹(shù)),但仍保留項(xiàng)集關(guān)聯(lián)信息;然后,將這種壓縮后的數(shù)據(jù)庫(kù)分成一組條件數(shù)據(jù)庫(kù),每個(gè)關(guān)聯(lián)一個(gè)頻繁項(xiàng),并分別挖掘每個(gè)數(shù)據(jù)庫(kù)。
使用頻繁模式增長(zhǎng)方法,重新對(duì)例1的事務(wù)數(shù)據(jù)庫(kù)進(jìn)行挖掘。
數(shù)據(jù)庫(kù)的第一次掃描與Apriori相同,導(dǎo)出頻繁1項(xiàng)集集合,并得到它們的支持度計(jì)數(shù)。設(shè)最小支持度計(jì)數(shù)為2。結(jié)果集記為F。這樣,F(xiàn)=[L2:7,L1:6,L3:6,L4:2,L5:2]。
構(gòu)造FP樹(shù)如下:首先,創(chuàng)建樹(shù)的根結(jié)點(diǎn),用“null”標(biāo)記。第二次掃描數(shù)據(jù)庫(kù)D。每個(gè)事務(wù)中的項(xiàng)按L中的次序處理(即按遞減支持度計(jì)數(shù)排序)并對(duì)每個(gè)事務(wù)創(chuàng)建一個(gè)分支。例如,第一個(gè)事務(wù)“T100: L1, L2, L5”,按L的次序包含三個(gè)項(xiàng){L2,L1,L5 },導(dǎo)致構(gòu)造樹(shù)的第一個(gè)分支到<(L2:1),(L1:1),(L5:1)>。該分支具有三個(gè)節(jié)點(diǎn),其中,L2作為根的子女連接,L1連接到L2,L5連接到L1。第二個(gè)事務(wù)T200按F的次序包含項(xiàng)L2和L4,它導(dǎo)致一個(gè)分支,其中,L2連接到根,L4連接到L2。然而,該分支應(yīng)當(dāng)與T100已經(jīng)存在的路徑共享前綴,這樣,將節(jié)點(diǎn)L2的計(jì)數(shù)增加1,并創(chuàng)建一個(gè)新節(jié)點(diǎn)(L4: 1),它作為(L2: 2 )的子女鏈接。一般,當(dāng)為一個(gè)事務(wù)考慮增加分支時(shí),沿共同前綴上的每個(gè)節(jié)點(diǎn)的計(jì)數(shù)增加1,為跟隨在前綴之后的項(xiàng)創(chuàng)建節(jié)點(diǎn)并連接。