2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

數(shù)據(jù)挖掘技術(shù)電視臺新聞中心應(yīng)用研究

來源:期刊VIP網(wǎng)所屬分類:新聞傳播時(shí)間:瀏覽:

  [摘要]:電視臺的網(wǎng)站是通過防火墻將內(nèi)部網(wǎng)與外部網(wǎng)進(jìn)行分隔,現(xiàn)在在WEB服務(wù)器與防火墻之間新設(shè)一臺交流中心DB2服務(wù)器,在WEB服務(wù)器上通過鏈接到此服務(wù)器上,交流中心DB2服務(wù)器上安裝DB2數(shù)據(jù)庫,進(jìn)行登錄人員身份驗(yàn)證,并將各地區(qū)電視臺和特約記者提交的新聞稿放入到數(shù)據(jù)庫中,應(yīng)用軟件能對各種稿件進(jìn)行分類處理,建立一個(gè)稿件數(shù)據(jù)庫,各地區(qū)電視臺和特約記者能隨時(shí)查閱、下載。

  [關(guān)鍵詞]:數(shù)據(jù)倉庫,數(shù)據(jù)挖掘技術(shù),新聞中心

  一、數(shù)據(jù)倉庫(DW)

  80年代初,W.H.Inmon在“記錄系統(tǒng)”、“原子數(shù)據(jù)”和“決策支持系統(tǒng)”等專題研究報(bào)告中,提出了數(shù)據(jù)倉庫或信息倉庫的概念并給出了基本框架描述。按照Inmon的觀點(diǎn),數(shù)據(jù)倉庫是面向主題的、集成的、非發(fā)散的、具有時(shí)間維的數(shù)據(jù)集合,用來服務(wù)于管理部門的分析和決策。數(shù)據(jù)倉庫與傳統(tǒng)事務(wù)數(shù)據(jù)庫相比,主要有如下不同:

  (1)數(shù)據(jù)倉庫的第一個(gè)特征就是面向企業(yè)重要的主題,它是一種分析驅(qū)動面向主題的數(shù)據(jù)處理技術(shù),而不是傳統(tǒng)的事務(wù)驅(qū)動/面向應(yīng)用的數(shù)據(jù)處理方式。例如事務(wù)數(shù)據(jù)庫是針對諸如貸款、財(cái)務(wù)、工資、人事等功能和應(yīng)用設(shè)計(jì)的,而數(shù)據(jù)倉庫則主要針對諸如顧客、供應(yīng)商、產(chǎn)品等主題而設(shè)計(jì)。數(shù)據(jù)倉庫追求整體最優(yōu),服務(wù)于管理分析與決策。事務(wù)數(shù)據(jù)庫追求單一的處理最優(yōu),服務(wù)于在線事務(wù)處理。

  (2)數(shù)據(jù)倉庫的另一個(gè)重要的特征就是其數(shù)據(jù)是集成化的,如一致的命名規(guī)則、一致的度量單位、一致的編碼規(guī)則、一致的數(shù)據(jù)物理屬性等。比如:在事務(wù)數(shù)據(jù)庫中,時(shí)間的表示方法在應(yīng)用A中為date (yymmdd ),在應(yīng)用B中為date ( mmddyy ),那么導(dǎo)入數(shù)據(jù)倉庫中后統(tǒng)一為date ( yymmdd ) 。這樣保證了數(shù)據(jù)的可靠性與一致性。

  (3)數(shù)據(jù)倉庫中的數(shù)據(jù)不是一個(gè)時(shí)刻的數(shù)據(jù),而是一個(gè)時(shí)間段的數(shù)據(jù),這是數(shù)據(jù)倉庫區(qū)別事務(wù)數(shù)據(jù)庫的基本特征。事務(wù)數(shù)據(jù)庫的數(shù)據(jù)對當(dāng)前是“精確”的,而數(shù)據(jù)倉庫中的數(shù)據(jù)對一個(gè)時(shí)間段來說都是“精確”的,故具有時(shí)間跨度性。

  媒體論壇推薦:《視聽界》是由中華人民共和國新聞出版總署、正式批準(zhǔn)公開發(fā)行的優(yōu)秀期刊。自創(chuàng)刊以來,以新觀點(diǎn)、新方法、新材料為主題,堅(jiān)持"期期精彩、篇篇可讀"的理念。視聽界內(nèi)容詳實(shí)、觀點(diǎn)新穎、文章可讀性強(qiáng)、信息量大,眾多的欄目設(shè)置,視聽界公認(rèn)譽(yù)為具有業(yè)內(nèi)影響力的雜志之一。視聽界并獲中國優(yōu)秀期刊獎(jiǎng),現(xiàn)中國期刊網(wǎng)數(shù)據(jù)庫全文收錄期刊。

  (4)面向應(yīng)用的事務(wù)數(shù)據(jù)庫的操作基于單個(gè)記錄的插入、更新與刪除,性能敏感、內(nèi)容易變且無冗余,而面向主題的數(shù)據(jù)倉庫系統(tǒng)的操作基于多個(gè)數(shù)據(jù)源數(shù)據(jù)的成批刷新,性能不敏感、內(nèi)容可有冗余。

  由此可以看出,數(shù)據(jù)倉庫主要從歷史的角度描述系統(tǒng)結(jié)構(gòu)和狀態(tài)的變化,它采用能夠反映時(shí)間維特征的數(shù)據(jù)結(jié)構(gòu),將基于多個(gè)同質(zhì)或異質(zhì)事務(wù)數(shù)據(jù)庫和外部信息作為數(shù)據(jù)源,經(jīng)過提煉、加工、匯總和歸一化處理,生成符合數(shù)據(jù)應(yīng)用語義規(guī)范要求的數(shù)據(jù)集合,以滿足企業(yè)多種復(fù)雜的信息需求和預(yù)測分析。

  二、數(shù)據(jù)挖掘的技術(shù)含義

  談到數(shù)據(jù)挖掘,必須提到數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD: Knowledge Discovery in Databases)。關(guān)于KDD與Data Mining的關(guān)系,有許多不同的看法。我們可以從這些不同的觀點(diǎn)中了解數(shù)據(jù)挖掘的技術(shù)含義。

  (1) KDD看成數(shù)據(jù)挖掘的一個(gè)特例

  既然數(shù)據(jù)挖掘系統(tǒng)可以在關(guān)系數(shù)據(jù)庫、事務(wù)數(shù)據(jù)庫、數(shù)據(jù)倉庫、空間數(shù)據(jù)庫(Spatial Database)、文本數(shù)據(jù)(Text Data)以及諸如WEB等多種數(shù)據(jù)組織形式中挖掘知識,那么數(shù)據(jù)庫中的知識發(fā)現(xiàn)只是數(shù)據(jù)挖掘的一個(gè)方面。這是早期比較流行的觀點(diǎn),在許多文獻(xiàn)可以看到這種說法。因此,從這個(gè)意義說,數(shù)據(jù)挖掘就是從數(shù)據(jù)庫、數(shù)據(jù)倉庫以及其它數(shù)據(jù)存儲方式中挖掘有用知識的過程。這種描述強(qiáng)調(diào)了數(shù)據(jù)挖掘在源數(shù)據(jù)形式上的多樣性。

  (2) 數(shù)據(jù)挖掘是KDD過程的一個(gè)步驟

  例如,在“知識發(fā)現(xiàn)1996國際會議” 上,許多學(xué)者建議對這兩個(gè)名詞加以區(qū)分[6]。核心思想是:KDD是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的全部過程,而Data Mining則是此全部過程的一個(gè)特定的、關(guān)鍵步驟。這種觀點(diǎn)有它的合理性。雖然我們可以從數(shù)據(jù)倉庫、WEB等源數(shù)據(jù)中挖掘知識,但是這些數(shù)據(jù)源都是和數(shù)據(jù)庫技術(shù)相關(guān)的。數(shù)據(jù)倉庫是由源數(shù)據(jù)庫集成而來的,即使是像WEB這樣的數(shù)據(jù)源恐怕也離不開數(shù)據(jù)庫技術(shù)來組織和存儲抽取的信息。因此KDD是一個(gè)更廣義的范疇,它包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式生成及評估等一系列步驟。這樣,我們可以把KDD看作是一些基本功能構(gòu)件的系統(tǒng)化協(xié)同工作系統(tǒng),而數(shù)據(jù)挖掘則是這個(gè)系統(tǒng)中的一個(gè)關(guān)鍵的部分。源數(shù)據(jù)經(jīng)過清洗和轉(zhuǎn)換等成為適合于挖掘的數(shù)據(jù)集,數(shù)據(jù)挖掘在這種具有固定形式的數(shù)據(jù)集上完成知識的提煉,最后以合適的知識模式用于進(jìn)一步分析決策工作。從這種狹義的觀點(diǎn)上,我們可以定義數(shù)據(jù)挖掘是從特定形式的數(shù)據(jù)集中提煉知識的過程。數(shù)據(jù)挖掘作為KDD的一個(gè)重要步驟看待,可以使我們更容易聚焦研究重點(diǎn),有效解決問題。目前,人們在數(shù)據(jù)挖掘算法的研究上,基本屬于這樣的范疇。

  (3)KDD與Data Mining含義相同

  有些人認(rèn)為,KDD與Data Mining只是叫法不一樣,它們的含義基本相同。事實(shí)上,在現(xiàn)今的文獻(xiàn)中,許多場合,如技術(shù)綜述等,這兩個(gè)術(shù)語仍然不加區(qū)分地使用著。也有人說,KDD在人工智能界更流行;Data Mining在數(shù)據(jù)庫界使用更多。所以,從廣義的觀點(diǎn),數(shù)據(jù)挖掘是從大型數(shù)據(jù)集(可能是不完全的、有噪聲的、不確定性的、各種存儲形式的)中,挖掘隱含在其中的、人們事先不知道的、對決策有用的知識的過程。

  從上面的描述中可以看出,數(shù)據(jù)挖掘概念可以在不同的技術(shù)層面上來理解,但是其核心仍然是從數(shù)據(jù)中挖掘知識。所以,有人說叫知識挖掘更合適。本文使用數(shù)據(jù)挖掘的狹義定義。

  三、新聞中心數(shù)據(jù)倉庫設(shè)計(jì)

  新聞中心信息交流系統(tǒng)是要在電視臺網(wǎng)站下建立一個(gè)新聞信息交流中心。各地區(qū)電視臺和特約記者通過Internet訪問該新聞交流網(wǎng)站,通過身份認(rèn)證進(jìn)入交流中心,可以利用該中心提交新聞稿,查看其它地方臺的稿件、采訪計(jì)劃,進(jìn)行新聞交流,并查看省臺串聯(lián)單信息。電視臺新聞部可以通過該中心進(jìn)行約稿,公布約稿情況。

  由于安全需要,各地區(qū)電視臺和特約記者不能直接進(jìn)入到新聞部的服務(wù)器,而新聞部又必須能取得上傳的新聞稿,所以我設(shè)計(jì)了如下的系統(tǒng)結(jié)構(gòu):

  WEB服務(wù)器

  交流中心DB2服務(wù)器

  防火墻

  新聞部DB2服務(wù)器

  電視臺服務(wù)器

  防火墻能防止登錄人員進(jìn)入到電視臺內(nèi)部網(wǎng)中,而讓新聞部DB2服務(wù)器對交流中心DB2服務(wù)器進(jìn)行訪問,這樣,新聞部就能及時(shí)地將各地區(qū)電視臺和特約記者提交的稿件取出并存入本地的DB2數(shù)據(jù)中,并能將約稿要求寫入交流中心DB2數(shù)據(jù)庫中,由登錄用戶提取。

  四、新聞中心系統(tǒng)數(shù)據(jù)挖掘

  隨著電視臺信息化過程的日益完善,提供更為詳細(xì)和智能的決策支持則成為目前信息化的主要目標(biāo)。浙江電視臺信息中心數(shù)據(jù)倉庫的建成,就為電視臺進(jìn)一步的信息挖掘提供了可能。我們在這個(gè)數(shù)據(jù)倉庫的基礎(chǔ)上,建立了關(guān)聯(lián)規(guī)則挖掘模型和判定樹歸納分類模型,并利用最小二乘法建立新聞稿件數(shù)量預(yù)測模型。盡管由于時(shí)間關(guān)系沒有具體實(shí)現(xiàn),但為今后的研究和實(shí)施打下了良好的基礎(chǔ)。

  新聞中心內(nèi)部數(shù)據(jù)庫比較龐大,新聞種類很多,這些新聞種類之間有沒有什么聯(lián)系呢,工作人員查閱審批這些新聞工作量很大,如果我們能找出各新聞種類之間的聯(lián)系,就可以把相關(guān)內(nèi)容的新聞歸為一類,派一個(gè)人管理,提高工作效率。而且,若我們知道了某類新聞是當(dāng)前的熱點(diǎn),那我們就可以挖掘與這類新聞關(guān)聯(lián)的新聞,多報(bào)道一些相關(guān)聯(lián)的新聞,同樣能提高收視率。要做到這些,就要使用關(guān)聯(lián)規(guī)則的挖掘。

  定義:包含k個(gè)項(xiàng)的項(xiàng)集稱為k項(xiàng)集。項(xiàng)集得出現(xiàn)頻率是包含項(xiàng)集的事務(wù)數(shù),簡稱為項(xiàng)集的頻率、支持計(jì)數(shù)或計(jì)數(shù)。如果項(xiàng)集滿足最小支持度,則稱它為頻繁項(xiàng)集(frequent itemset )。 頻繁k項(xiàng)集的集合通常記為Fk。

  Apriozi性質(zhì):頻繁項(xiàng)集的所有非空子集都必須是頻繁的。如果項(xiàng)集F不滿足最小支持度閥值min_sup,則F不是頻繁的,即P (F)

  (1)連接:為了通過Fk-1,找到Fk,先把Fk-1與自己連接產(chǎn)生候選k項(xiàng)集的集合,記為Ck。設(shè)L1和L2是Fk-1中的項(xiàng)集。記號Li[j]表示Li的第j項(xiàng)。執(zhí)行連接Fk-1>< Fk-1,加果它們前(k-2)項(xiàng)相同,F(xiàn)k-1是可連接的。連接L1和L2產(chǎn)生的結(jié)果項(xiàng)集是L1[1]L1[2]……L1[k-1]L2[k-1]。

  (2)剪枝:Ck是Fk的超集,它的成員可以不是頻繁的,但所有的頻繁k項(xiàng)集都在Ck中。掃描數(shù)據(jù)庫,確定Ck中每個(gè)候選的計(jì)數(shù),從而確定Fk。然而,Ck可能很大,這樣所涉及的計(jì)算量就很大。應(yīng)用Apriori性質(zhì),如果一個(gè)候選k項(xiàng)集的(k-1)子集不在Fk-1,中,則該候選也不可能是頻繁的,從而可以由Ck中刪除。

  Apriori的候選產(chǎn)生——檢查算法大幅度壓縮了候選項(xiàng)集的大小;并有很好的性能。但是,它還是有兩種不可忽視的開銷。

  ·它可能需要產(chǎn)生大量候選項(xiàng)集。新聞中心數(shù)據(jù)庫有幾萬條記錄,即>1萬個(gè)頻繁1項(xiàng)集,則Apriori算法需要產(chǎn)生多達(dá)100萬個(gè)個(gè)候選2項(xiàng)集,并累計(jì)和檢查它們的頻繁性。

  ·它可能需要重復(fù)的掃描數(shù)據(jù)庫,通過模式匹配檢查一個(gè)很大的候選集合。為發(fā)現(xiàn)長度為100的頻繁模式,如{a1,...,a100},它必須產(chǎn)生多達(dá)幾萬億個(gè)候選。

  解決方法:將提供頻繁項(xiàng)集的數(shù)據(jù)庫壓縮到一顆頻繁樹(F樹),但仍保留項(xiàng)集關(guān)聯(lián)信息;然后,將這種壓縮后的數(shù)據(jù)庫分成一組條件數(shù)據(jù)庫,每個(gè)關(guān)聯(lián)一個(gè)頻繁項(xiàng),并分別挖掘每個(gè)數(shù)據(jù)庫。

  使用頻繁模式增長方法,重新對例1的事務(wù)數(shù)據(jù)庫進(jìn)行挖掘。

  數(shù)據(jù)庫的第一次掃描與Apriori相同,導(dǎo)出頻繁1項(xiàng)集集合,并得到它們的支持度計(jì)數(shù)。設(shè)最小支持度計(jì)數(shù)為2。結(jié)果集記為F。這樣,F(xiàn)=[L2:7,L1:6,L3:6,L4:2,L5:2]。

  構(gòu)造FP樹如下:首先,創(chuàng)建樹的根結(jié)點(diǎn),用“null”標(biāo)記。第二次掃描數(shù)據(jù)庫D。每個(gè)事務(wù)中的項(xiàng)按L中的次序處理(即按遞減支持度計(jì)數(shù)排序)并對每個(gè)事務(wù)創(chuàng)建一個(gè)分支。例如,第一個(gè)事務(wù)“T100: L1, L2, L5”,按L的次序包含三個(gè)項(xiàng){L2,L1,L5 },導(dǎo)致構(gòu)造樹的第一個(gè)分支到<(L2:1),(L1:1),(L5:1)>。該分支具有三個(gè)節(jié)點(diǎn),其中,L2作為根的子女連接,L1連接到L2,L5連接到L1。第二個(gè)事務(wù)T200按F的次序包含項(xiàng)L2和L4,它導(dǎo)致一個(gè)分支,其中,L2連接到根,L4連接到L2。然而,該分支應(yīng)當(dāng)與T100已經(jīng)存在的路徑共享前綴,這樣,將節(jié)點(diǎn)L2的計(jì)數(shù)增加1,并創(chuàng)建一個(gè)新節(jié)點(diǎn)(L4: 1),它作為(L2: 2 )的子女鏈接。一般,當(dāng)為一個(gè)事務(wù)考慮增加分支時(shí),沿共同前綴上的每個(gè)節(jié)點(diǎn)的計(jì)數(shù)增加1,為跟隨在前綴之后的項(xiàng)創(chuàng)建節(jié)點(diǎn)并連接。

主站蜘蛛池模板: 金山区| 九江县| 娄烦县| 曲阜市| 鲁山县| 龙山县| 曲麻莱县| 宁乡县| 永善县| 武义县| 阜阳市| 蒙山县| 和平县| 石城县| 华宁县| 瑞金市| 闵行区| 赤水市| 徐州市| 平利县| 大田县| 普洱| 新邵县| 疏附县| 宁化县| 柘城县| 德阳市| 嘉义市| 绥滨县| 三原县| 于田县| 正定县| 石楼县| 措美县| 宽甸| 尉氏县| 桂东县| 福州市| 玛曲县| 高密市| 唐海县|