2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

CERNET分布式中英文WWW信息發(fā)現(xiàn)系統(tǒng)設計方案

來源:期刊VIP網(wǎng)所屬分類:計算機網(wǎng)絡時間:瀏覽:

  論文摘要:依據(jù)CERNET在“九五”攻關項目“計算機信息網(wǎng)絡及其應用關鍵技術研究”中確立的“中文編碼和分布中英文信息發(fā)現(xiàn)”子專題的項目要求設計實現(xiàn)了分布式中英文WWW信息發(fā)現(xiàn)系統(tǒng)。并提出了支持中文信息,有良好分布和高度并行的設計目標。隨后介紹了它的信息收集和檢索兩個子系統(tǒng)的設計。

  關鍵詞: 資源信息發(fā)現(xiàn),WWW,搜索引擎

  第一章 Internet信息發(fā)現(xiàn)技術發(fā)展與現(xiàn)狀

  一、Internet 的發(fā)展

  Internet是一個由各種不同類型和規(guī)模的獨立運行和管理的計算機網(wǎng)絡組成的全球范圍的計算機網(wǎng)絡。它的前身是60年代末,70年代初美國國防部高級研究計劃署的實驗性網(wǎng)絡ARPANET。1983年后,ARPANET中有關軍事的部分被隔離為MILNET。其后,1986年誕生的美國國家科學基金會NSFNET對Internet的發(fā)展起了劃時代的作用。

  90年代初到現(xiàn)在,是Internet增長最迅速的時期,加入Internet的人員、計算機和網(wǎng)絡的數(shù)量以指數(shù)方式增長,Internet上的網(wǎng)絡從1985年的100個左右,迅速發(fā)展到1992年的5000多個。截止1996年7月,Internet已連接了134346個網(wǎng)絡,入網(wǎng)主機1228萬臺,以及數(shù)以億計的用戶。

  二、Internet信息資源的特點

  隨著各個國家和組織的網(wǎng)絡不斷加入,Internet成為一個規(guī)模巨大、自治性強、發(fā)展變化快,用戶訪問頻繁的國際互聯(lián)網(wǎng)絡。Internet上的信息資源隨著Internet的發(fā)展也呈現(xiàn)了以下特點:

  ·信息量大而且分散:目前,網(wǎng)上有幾千個匿名FTP服務器分布在網(wǎng)上的不同區(qū)域,為用戶提供了數(shù)以百萬計的文件資料。我們將在后面提到的WWW技術給每個用戶展現(xiàn)自己的機會,這又構成了另一個廣闊的信息空間。可以說,Internet是世界范圍內(nèi)的信息量最大的圖書館,為人們提供了豐富的信息資源。

  ·自治性強:作為廣域互連的Internet不是也不可能是由一個國家或組織單獨管理的。提供何種服務,如何提供,使用何種技術都是由每個接入Internet的組織自己作主。在這種廣域網(wǎng)的環(huán)境下,要達成廣泛的一致意見往往比較困難。

  ·信息資源多種多樣: 用戶可以通過Internet上的多種服務獲得信息,如FTP,Gopher,Archie,WAIS等等,這些信息資源無論從內(nèi)容還是形式都呈現(xiàn)出多樣異構的特點。

  ·信息變化快:首先,隨著Internet的增加,新的信息不斷涌現(xiàn),其次,現(xiàn)有的信息也在不斷變化。最典型的當屬“News”服務,其以GB為單位的信息隔幾天就要更新一次。

  ·不一致性和不完整性。例如,一個人的信息可以在個人WWW主頁,X.500目錄服務等多個信息源中出現(xiàn),當信息發(fā)生改變時,在這些信息源中改動的次序和改動是否完整都會影響信息的一致性和完整性。

  信息發(fā)現(xiàn)系統(tǒng)的一個重要目標就是提供給用戶一個有組織的一致的信息視圖,在設計系統(tǒng)時,我們應當考慮到Internet上信息的特點。

  三、WWW的特點及其迅速發(fā)展

  WWW(World Wide Web)是九十年代初Internet上的全球性的網(wǎng)絡信息系統(tǒng)。超文本和超媒體是WWW使用的關鍵技術。它使文本、圖象、音頻和視頻等信息有機地結合起來,提供了豐富的信息表示能力。用戶可以用友好、方便多樣的界面存取信息,成為人們發(fā)布和共享信息的重要工具。越來越多的公司通過自己的主頁展示推銷自己;越來越多的大學、科研機構也通過網(wǎng)頁來交流研究成果;越來越多的個人也擁有了自己的主頁,所有這些都導致WWW信息迅速膨脹。在1993年下半年,WWW在不到三個月的時間里翻了一翻,即使現(xiàn)在WWW也以每六個月一翻的速度增長。1995年4月,WWW在網(wǎng)上的流量超過了Internet上其它服務的流量,并一直穩(wěn)居首位。據(jù)不完全統(tǒng)計,1996年初,網(wǎng)上大約有1900萬網(wǎng)頁,到現(xiàn)在WWW上的網(wǎng)頁數(shù)決不會低于2億。

  四、信息發(fā)現(xiàn)服務的迫切性

  作為一個無窮無盡的信息源泉,Internet為人們提供了巨大的并且還在不斷增長的信息資源和服務,Internet上各種各樣的信息源源不斷地流向人們。然而在你尋找所需的信息時,Internet又象是一個信息的迷宮,讓人感覺無所適從,不知如何迅速定位自己真正需要的信息,僅依靠超文本鏈在迷宮中漫游,多半會徒勞無功。所以,人們迫切希望有信息發(fā)現(xiàn)工具為他們在WWW上搜尋信息提供導航。

  五、Internet信息發(fā)現(xiàn)技術的發(fā)展狀況

  (一)已有信息發(fā)現(xiàn)系統(tǒng)的回顧

  隨著Internet發(fā)展,Internet上的信息發(fā)現(xiàn)服務和工具也逐漸發(fā)展起來。比較典型的有Archie,WAIS, Gopher,X.500等,另外,還有眾多的“搜索引擎”(Search Engine),如Excite,Infoseek,Alta Vista。

  1、Archie實際上是一個大型的數(shù)據(jù)庫,和與這個數(shù)據(jù)庫相關的一套檢索方法。(轉載自論文之家 http://www.papershome.com,請保留此標記。)Archie數(shù)據(jù)庫存有通過FTP獲取的資源信息,包括這些資源的文件名、文件長度、存放該文件的主機名及目錄。目前,Archie數(shù)據(jù)庫已存入了大約1200個 FTP服務器、250萬個文件的資料。Internet上有三十幾個Archie服務器,查詢 FTP的任務分布在各個服務器,它們之間通過執(zhí)行基于擴散(flooding_based)的一致性保持協(xié)議,來保證信息的一致性。Archie的開發(fā)者把它描述為資源發(fā)現(xiàn)和信息獲取的低端技術(low_tech)方案。Archie的成功要歸結于它的簡單性和對已有機制的利用。Archie有點類似于圖書館中的檢索卡片。當你去圖書館查閱書籍時,如果你不知道你要尋找的書放于哪一個館區(qū)的哪一個書架,那么,你通常不會挨個書架去找,而是會先查閱圖書檢索卡片。Archie也一樣,如果你不知道您要拷貝的文件放在哪一臺FTP 服務器中,你根本不可能挨個FTP服務器去查找,通過Archie,你可以根據(jù)文件名比較方便地找到文件存貯的位置。不過,Archie沒有針對文件的簡要說明,僅通過文件名進行索引,利用Archie檢索時,你必須事先知道文件名或文件名的某些部份。Archie 還有另外一個不足的地方,就是它收集的資料還不全面。由于是否把 FTP服務器的資料放入Archie完全取決于自愿原則,錯漏或更新不及時的情況就難以避免。

主站蜘蛛池模板: 旬阳县| 沂源县| 康马县| 岳阳市| 饶平县| 前郭尔| 从江县| 迭部县| 新源县| 尚志市| 周口市| 福贡县| 体育| 周口市| 北安市| 萨迦县| 克山县| 恩平市| 九江市| 宝坻区| 开封市| 贺兰县| 综艺| 姚安县| 姜堰市| 余干县| 开封县| 拉孜县| 桃源县| 大田县| 海丰县| 通辽市| 静宁县| 怀化市| 闽清县| 苍山县| 阳江市| 鹤峰县| 垫江县| 仪征市| 汝阳县|