數(shù)據(jù)挖掘技術(shù)電視臺(tái)新聞中心應(yīng)用研究

來(lái)源：期刊VIP網(wǎng)所屬分類：新聞傳播時(shí)間：瀏覽：次

　　[摘要]：電視臺(tái)的網(wǎng)站是通過(guò)防火墻將內(nèi)部網(wǎng)與外部網(wǎng)進(jìn)行分隔，現(xiàn)在在WEB服務(wù)器與防火墻之間新設(shè)一臺(tái)交流中心DB2服務(wù)器，在WEB服務(wù)器上通過(guò)鏈接到此服務(wù)器上，交流中心DB2服務(wù)器上安裝DB2數(shù)據(jù)庫(kù)，進(jìn)行登錄人員身份驗(yàn)證，并將各地區(qū)電視臺(tái)和特約記者提交的新聞稿放入到數(shù)據(jù)庫(kù)中，應(yīng)用軟件能對(duì)各種稿件進(jìn)行分類處理，建立一個(gè)稿件數(shù)據(jù)庫(kù)，各地區(qū)電視臺(tái)和特約記者能隨時(shí)查閱、下載。

　　[關(guān)鍵詞]：數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘技術(shù),新聞中心

　　一、數(shù)據(jù)倉(cāng)庫(kù)(DW)

　　80年代初，W.H.Inmon在“記錄系統(tǒng)”、“原子數(shù)據(jù)”和“決策支持系統(tǒng)”等專題研究報(bào)告中，提出了數(shù)據(jù)倉(cāng)庫(kù)或信息倉(cāng)庫(kù)的概念并給出了基本框架描述。按照Inmon的觀點(diǎn)，數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、非發(fā)散的、具有時(shí)間維的數(shù)據(jù)集合，用來(lái)服務(wù)于管理部門的分析和決策。數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)事務(wù)數(shù)據(jù)庫(kù)相比，主要有如下不同:

　　(1)數(shù)據(jù)倉(cāng)庫(kù)的第一個(gè)特征就是面向企業(yè)重要的主題，它是一種分析驅(qū)動(dòng)面向主題的數(shù)據(jù)處理技術(shù)，而不是傳統(tǒng)的事務(wù)驅(qū)動(dòng)/面向應(yīng)用的數(shù)據(jù)處理方式。例如事務(wù)數(shù)據(jù)庫(kù)是針對(duì)諸如貸款、財(cái)務(wù)、工資、人事等功能和應(yīng)用設(shè)計(jì)的，而數(shù)據(jù)倉(cāng)庫(kù)則主要針對(duì)諸如顧客、供應(yīng)商、產(chǎn)品等主題而設(shè)計(jì)。數(shù)據(jù)倉(cāng)庫(kù)追求整體最優(yōu)，服務(wù)于管理分析與決策。事務(wù)數(shù)據(jù)庫(kù)追求單一的處理最優(yōu)，服務(wù)于在線事務(wù)處理。

　　(2)數(shù)據(jù)倉(cāng)庫(kù)的另一個(gè)重要的特征就是其數(shù)據(jù)是集成化的，如一致的命名規(guī)則、一致的度量單位、一致的編碼規(guī)則、一致的數(shù)據(jù)物理屬性等。比如:在事務(wù)數(shù)據(jù)庫(kù)中，時(shí)間的表示方法在應(yīng)用A中為date (yymmdd )，在應(yīng)用B中為date ( mmddyy )，那么導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)中后統(tǒng)一為date ( yymmdd ) 。這樣保證了數(shù)據(jù)的可靠性與一致性。

　　(3)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)不是一個(gè)時(shí)刻的數(shù)據(jù)，而是一個(gè)時(shí)間段的數(shù)據(jù)，這是數(shù)據(jù)倉(cāng)庫(kù)區(qū)別事務(wù)數(shù)據(jù)庫(kù)的基本特征。事務(wù)數(shù)據(jù)庫(kù)的數(shù)據(jù)對(duì)當(dāng)前是“精確”的，而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)對(duì)一個(gè)時(shí)間段來(lái)說(shuō)都是“精確”的，故具有時(shí)間跨度性。

　　媒體論壇推薦：《視聽(tīng)界》是由中華人民共和國(guó)新聞出版總署、正式批準(zhǔn)公開(kāi)發(fā)行的優(yōu)秀期刊。自創(chuàng)刊以來(lái)，以新觀點(diǎn)、新方法、新材料為主題，堅(jiān)持"期期精彩、篇篇可讀"的理念。視聽(tīng)界內(nèi)容詳實(shí)、觀點(diǎn)新穎、文章可讀性強(qiáng)、信息量大，眾多的欄目設(shè)置，視聽(tīng)界公認(rèn)譽(yù)為具有業(yè)內(nèi)影響力的雜志之一。視聽(tīng)界并獲中國(guó)優(yōu)秀期刊獎(jiǎng)，現(xiàn)中國(guó)期刊網(wǎng)數(shù)據(jù)庫(kù)全文收錄期刊。

　　(4)面向應(yīng)用的事務(wù)數(shù)據(jù)庫(kù)的操作基于單個(gè)記錄的插入、更新與刪除，性能敏感、內(nèi)容易變且無(wú)冗余，而面向主題的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的操作基于多個(gè)數(shù)據(jù)源數(shù)據(jù)的成批刷新，性能不敏感、內(nèi)容可有冗余。

　　由此可以看出，數(shù)據(jù)倉(cāng)庫(kù)主要從歷史的角度描述系統(tǒng)結(jié)構(gòu)和狀態(tài)的變化，它采用能夠反映時(shí)間維特征的數(shù)據(jù)結(jié)構(gòu)，將基于多個(gè)同質(zhì)或異質(zhì)事務(wù)數(shù)據(jù)庫(kù)和外部信息作為數(shù)據(jù)源，經(jīng)過(guò)提煉、加工、匯總和歸一化處理，生成符合數(shù)據(jù)應(yīng)用語(yǔ)義規(guī)范要求的數(shù)據(jù)集合，以滿足企業(yè)多種復(fù)雜的信息需求和預(yù)測(cè)分析。

　　二、數(shù)據(jù)挖掘的技術(shù)含義

　　談到數(shù)據(jù)挖掘，必須提到數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD： Knowledge Discovery in Databases)。關(guān)于KDD與Data Mining的關(guān)系，有許多不同的看法。我們可以從這些不同的觀點(diǎn)中了解數(shù)據(jù)挖掘的技術(shù)含義。

　　(1) KDD看成數(shù)據(jù)挖掘的一個(gè)特例

　　既然數(shù)據(jù)挖掘系統(tǒng)可以在關(guān)系數(shù)據(jù)庫(kù)、事務(wù)數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、空間數(shù)據(jù)庫(kù)(Spatial Database)、文本數(shù)據(jù)(Text Data)以及諸如WEB等多種數(shù)據(jù)組織形式中挖掘知識(shí)，那么數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)只是數(shù)據(jù)挖掘的一個(gè)方面。這是早期比較流行的觀點(diǎn)，在許多文獻(xiàn)可以看到這種說(shuō)法。因此，從這個(gè)意義說(shuō)，數(shù)據(jù)挖掘就是從數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)以及其它數(shù)據(jù)存儲(chǔ)方式中挖掘有用知識(shí)的過(guò)程。這種描述強(qiáng)調(diào)了數(shù)據(jù)挖掘在源數(shù)據(jù)形式上的多樣性。

　　(2) 數(shù)據(jù)挖掘是KDD過(guò)程的一個(gè)步驟

　　例如，在“知識(shí)發(fā)現(xiàn)1996國(guó)際會(huì)議” 上，許多學(xué)者建議對(duì)這兩個(gè)名詞加以區(qū)分[6]。核心思想是：KDD是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)的全部過(guò)程，而Data Mining則是此全部過(guò)程的一個(gè)特定的、關(guān)鍵步驟。這種觀點(diǎn)有它的合理性。雖然我們可以從數(shù)據(jù)倉(cāng)庫(kù)、WEB等源數(shù)據(jù)中挖掘知識(shí)，但是這些數(shù)據(jù)源都是和數(shù)據(jù)庫(kù)技術(shù)相關(guān)的。數(shù)據(jù)倉(cāng)庫(kù)是由源數(shù)據(jù)庫(kù)集成而來(lái)的，即使是像WEB這樣的數(shù)據(jù)源恐怕也離不開(kāi)數(shù)據(jù)庫(kù)技術(shù)來(lái)組織和存儲(chǔ)抽取的信息。因此KDD是一個(gè)更廣義的范疇，它包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式生成及評(píng)估等一系列步驟。這樣，我們可以把KDD看作是一些基本功能構(gòu)件的系統(tǒng)化協(xié)同工作系統(tǒng)，而數(shù)據(jù)挖掘則是這個(gè)系統(tǒng)中的一個(gè)關(guān)鍵的部分。源數(shù)據(jù)經(jīng)過(guò)清洗和轉(zhuǎn)換等成為適合于挖掘的數(shù)據(jù)集，數(shù)據(jù)挖掘在這種具有固定形式的數(shù)據(jù)集上完成知識(shí)的提煉，最后以合適的知識(shí)模式用于進(jìn)一步分析決策工作。從這種狹義的觀點(diǎn)上，我們可以定義數(shù)據(jù)挖掘是從特定形式的數(shù)據(jù)集中提煉知識(shí)的過(guò)程。數(shù)據(jù)挖掘作為KDD的一個(gè)重要步驟看待，可以使我們更容易聚焦研究重點(diǎn)，有效解決問(wèn)題。目前，人們?cè)跀?shù)據(jù)挖掘算法的研究上，基本屬于這樣的范疇。

　　(3)KDD與Data Mining含義相同

　　有些人認(rèn)為，KDD與Data Mining只是叫法不一樣，它們的含義基本相同。事實(shí)上，在現(xiàn)今的文獻(xiàn)中，許多場(chǎng)合，如技術(shù)綜述等，這兩個(gè)術(shù)語(yǔ)仍然不加區(qū)分地使用著。也有人說(shuō)，KDD在人工智能界更流行;Data Mining在數(shù)據(jù)庫(kù)界使用更多。所以，從廣義的觀點(diǎn)，數(shù)據(jù)挖掘是從大型數(shù)據(jù)集(可能是不完全的、有噪聲的、不確定性的、各種存儲(chǔ)形式的)中，挖掘隱含在其中的、人們事先不知道的、對(duì)決策有用的知識(shí)的過(guò)程。

　　從上面的描述中可以看出，數(shù)據(jù)挖掘概念可以在不同的技術(shù)層面上來(lái)理解，但是其核心仍然是從數(shù)據(jù)中挖掘知識(shí)。所以，有人說(shuō)叫知識(shí)挖掘更合適。本文使用數(shù)據(jù)挖掘的狹義定義。

　　三、新聞中心數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)

　　新聞中心信息交流系統(tǒng)是要在電視臺(tái)網(wǎng)站下建立一個(gè)新聞信息交流中心。各地區(qū)電視臺(tái)和特約記者通過(guò)Internet訪問(wèn)該新聞交流網(wǎng)站，通過(guò)身份認(rèn)證進(jìn)入交流中心，可以利用該中心提交新聞稿，查看其它地方臺(tái)的稿件、采訪計(jì)劃，進(jìn)行新聞交流，并查看省臺(tái)串聯(lián)單信息。電視臺(tái)新聞部可以通過(guò)該中心進(jìn)行約稿，公布約稿情況。

　　由于安全需要，各地區(qū)電視臺(tái)和特約記者不能直接進(jìn)入到新聞部的服務(wù)器，而新聞部又必須能取得上傳的新聞稿，所以我設(shè)計(jì)了如下的系統(tǒng)結(jié)構(gòu):

　　WEB服務(wù)器

　　交流中心DB2服務(wù)器

　　防火墻

　　新聞部DB2服務(wù)器

　　電視臺(tái)服務(wù)器

　　防火墻能防止登錄人員進(jìn)入到電視臺(tái)內(nèi)部網(wǎng)中，而讓新聞部DB2服務(wù)器對(duì)交流中心DB2服務(wù)器進(jìn)行訪問(wèn)，這樣，新聞部就能及時(shí)地將各地區(qū)電視臺(tái)和特約記者提交的稿件取出并存入本地的DB2數(shù)據(jù)中，并能將約稿要求寫入交流中心DB2數(shù)據(jù)庫(kù)中，由登錄用戶提取。

　　四、新聞中心系統(tǒng)數(shù)據(jù)挖掘

　　隨著電視臺(tái)信息化過(guò)程的日益完善，提供更為詳細(xì)和智能的決策支持則成為目前信息化的主要目標(biāo)。浙江電視臺(tái)信息中心數(shù)據(jù)倉(cāng)庫(kù)的建成，就為電視臺(tái)進(jìn)一步的信息挖掘提供了可能。我們?cè)谶@個(gè)數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上，建立了關(guān)聯(lián)規(guī)則挖掘模型和判定樹(shù)歸納分類模型，并利用最小二乘法建立新聞稿件數(shù)量預(yù)測(cè)模型。盡管由于時(shí)間關(guān)系沒(méi)有具體實(shí)現(xiàn)，但為今后的研究和實(shí)施打下了良好的基礎(chǔ)。

　　新聞中心內(nèi)部數(shù)據(jù)庫(kù)比較龐大，新聞種類很多，這些新聞種類之間有沒(méi)有什么聯(lián)系呢，工作人員查閱審批這些新聞工作量很大，如果我們能找出各新聞種類之間的聯(lián)系，就可以把相關(guān)內(nèi)容的新聞歸為一類，派一個(gè)人管理，提高工作效率。而且，若我們知道了某類新聞是當(dāng)前的熱點(diǎn)，那我們就可以挖掘與這類新聞關(guān)聯(lián)的新聞，多報(bào)道一些相關(guān)聯(lián)的新聞，同樣能提高收視率。要做到這些，就要使用關(guān)聯(lián)規(guī)則的挖掘。

　　定義：包含k個(gè)項(xiàng)的項(xiàng)集稱為k項(xiàng)集。項(xiàng)集得出現(xiàn)頻率是包含項(xiàng)集的事務(wù)數(shù)，簡(jiǎn)稱為項(xiàng)集的頻率、支持計(jì)數(shù)或計(jì)數(shù)。如果項(xiàng)集滿足最小支持度，則稱它為頻繁項(xiàng)集(frequent itemset )。頻繁k項(xiàng)集的集合通常記為Fk。

　　Apriozi性質(zhì):頻繁項(xiàng)集的所有非空子集都必須是頻繁的。如果項(xiàng)集F不滿足最小支持度閥值min_sup，則F不是頻繁的，即P (F)

　　(1)連接：為了通過(guò)Fk-1，找到Fk，先把Fk-1與自己連接產(chǎn)生候選k項(xiàng)集的集合，記為Ck。設(shè)L1和L2是Fk-1中的項(xiàng)集。記號(hào)Li[j]表示Li的第j項(xiàng)。執(zhí)行連接Fk-1>< Fk-1，加果它們前(k-2)項(xiàng)相同，F(xiàn)k-1是可連接的。連接L1和L2產(chǎn)生的結(jié)果項(xiàng)集是L1[1]L1[2]……L1[k-1]L2[k-1]。

　　(2)剪枝：Ck是Fk的超集，它的成員可以不是頻繁的，但所有的頻繁k項(xiàng)集都在Ck中。掃描數(shù)據(jù)庫(kù)，確定Ck中每個(gè)候選的計(jì)數(shù)，從而確定Fk。然而，Ck可能很大，這樣所涉及的計(jì)算量就很大。應(yīng)用Apriori性質(zhì)，如果一個(gè)候選k項(xiàng)集的(k-1)子集不在Fk-1,中，則該候選也不可能是頻繁的，從而可以由Ck中刪除。

　　Apriori的候選產(chǎn)生——檢查算法大幅度壓縮了候選項(xiàng)集的大小;并有很好的性能。但是，它還是有兩種不可忽視的開(kāi)銷。

　　·它可能需要產(chǎn)生大量候選項(xiàng)集。新聞中心數(shù)據(jù)庫(kù)有幾萬(wàn)條記錄，即>1萬(wàn)個(gè)頻繁1項(xiàng)集，則Apriori算法需要產(chǎn)生多達(dá)100萬(wàn)個(gè)個(gè)候選2項(xiàng)集，并累計(jì)和檢查它們的頻繁性。

　　·它可能需要重復(fù)的掃描數(shù)據(jù)庫(kù)，通過(guò)模式匹配檢查一個(gè)很大的候選集合。為發(fā)現(xiàn)長(zhǎng)度為100的頻繁模式，如{a1,...,a100}，它必須產(chǎn)生多達(dá)幾萬(wàn)億個(gè)候選。

　　解決方法：將提供頻繁項(xiàng)集的數(shù)據(jù)庫(kù)壓縮到一顆頻繁樹(shù)(F樹(shù))，但仍保留項(xiàng)集關(guān)聯(lián)信息;然后，將這種壓縮后的數(shù)據(jù)庫(kù)分成一組條件數(shù)據(jù)庫(kù)，每個(gè)關(guān)聯(lián)一個(gè)頻繁項(xiàng)，并分別挖掘每個(gè)數(shù)據(jù)庫(kù)。

　　使用頻繁模式增長(zhǎng)方法，重新對(duì)例1的事務(wù)數(shù)據(jù)庫(kù)進(jìn)行挖掘。

　　數(shù)據(jù)庫(kù)的第一次掃描與Apriori相同，導(dǎo)出頻繁1項(xiàng)集集合，并得到它們的支持度計(jì)數(shù)。設(shè)最小支持度計(jì)數(shù)為2。結(jié)果集記為F。這樣，F(xiàn)=[L2:7,L1:6,L3:6,L4:2,L5:2]。

　　構(gòu)造FP樹(shù)如下:首先，創(chuàng)建樹(shù)的根結(jié)點(diǎn)，用“null”標(biāo)記。第二次掃描數(shù)據(jù)庫(kù)D。每個(gè)事務(wù)中的項(xiàng)按L中的次序處理(即按遞減支持度計(jì)數(shù)排序)并對(duì)每個(gè)事務(wù)創(chuàng)建一個(gè)分支。例如，第一個(gè)事務(wù)“T100: L1, L2， L5”，按L的次序包含三個(gè)項(xiàng){L2,L1,L5 }，導(dǎo)致構(gòu)造樹(shù)的第一個(gè)分支到<(L2:1),(L1:1),(L5:1)>。該分支具有三個(gè)節(jié)點(diǎn)，其中，L2作為根的子女連接，L1連接到L2，L5連接到L1。第二個(gè)事務(wù)T200按F的次序包含項(xiàng)L2和L4，它導(dǎo)致一個(gè)分支，其中，L2連接到根，L4連接到L2。然而，該分支應(yīng)當(dāng)與T100已經(jīng)存在的路徑共享前綴，這樣，將節(jié)點(diǎn)L2的計(jì)數(shù)增加1，并創(chuàng)建一個(gè)新節(jié)點(diǎn)(L4: 1)，它作為(L2: 2 )的子女鏈接。一般，當(dāng)為一個(gè)事務(wù)考慮增加分支時(shí)，沿共同前綴上的每個(gè)節(jié)點(diǎn)的計(jì)數(shù)增加1，為跟隨在前綴之后的項(xiàng)創(chuàng)建節(jié)點(diǎn)并連接。

上一篇：反思未成年人暴力傷害事件新聞傳播媒介

下一篇：新時(shí)代新聞傳播教育轉(zhuǎn)型趨勢(shì)研究

2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

數(shù)據(jù)挖掘技術(shù)電視臺(tái)新聞中心應(yīng)用研究

查看北核目錄大全及期刊首頁(yè)

更多新聞傳播文章推薦

專題專項(xiàng)服務(wù)