2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

CERNET分布式中英文WWW信息發(fā)現(xiàn)系統(tǒng)設(shè)計(jì)方案

來(lái)源:期刊VIP網(wǎng)所屬分類:計(jì)算機(jī)網(wǎng)絡(luò)時(shí)間:瀏覽:

  論文摘要:依據(jù)CERNET在“九五”攻關(guān)項(xiàng)目“計(jì)算機(jī)信息網(wǎng)絡(luò)及其應(yīng)用關(guān)鍵技術(shù)研究”中確立的“中文編碼和分布中英文信息發(fā)現(xiàn)”子專題的項(xiàng)目要求設(shè)計(jì)實(shí)現(xiàn)了分布式中英文WWW信息發(fā)現(xiàn)系統(tǒng)。并提出了支持中文信息,有良好分布和高度并行的設(shè)計(jì)目標(biāo)。隨后介紹了它的信息收集和檢索兩個(gè)子系統(tǒng)的設(shè)計(jì)。

  關(guān)鍵詞: 資源信息發(fā)現(xiàn),WWW,搜索引擎

  第一章 Internet信息發(fā)現(xiàn)技術(shù)發(fā)展與現(xiàn)狀

  一、Internet 的發(fā)展

  Internet是一個(gè)由各種不同類型和規(guī)模的獨(dú)立運(yùn)行和管理的計(jì)算機(jī)網(wǎng)絡(luò)組成的全球范圍的計(jì)算機(jī)網(wǎng)絡(luò)。它的前身是60年代末,70年代初美國(guó)國(guó)防部高級(jí)研究計(jì)劃署的實(shí)驗(yàn)性網(wǎng)絡(luò)ARPANET。1983年后,ARPANET中有關(guān)軍事的部分被隔離為MILNET。其后,1986年誕生的美國(guó)國(guó)家科學(xué)基金會(huì)NSFNET對(duì)Internet的發(fā)展起了劃時(shí)代的作用。

  90年代初到現(xiàn)在,是Internet增長(zhǎng)最迅速的時(shí)期,加入Internet的人員、計(jì)算機(jī)和網(wǎng)絡(luò)的數(shù)量以指數(shù)方式增長(zhǎng),Internet上的網(wǎng)絡(luò)從1985年的100個(gè)左右,迅速發(fā)展到1992年的5000多個(gè)。截止1996年7月,Internet已連接了134346個(gè)網(wǎng)絡(luò),入網(wǎng)主機(jī)1228萬(wàn)臺(tái),以及數(shù)以億計(jì)的用戶。

  二、Internet信息資源的特點(diǎn)

  隨著各個(gè)國(guó)家和組織的網(wǎng)絡(luò)不斷加入,Internet成為一個(gè)規(guī)模巨大、自治性強(qiáng)、發(fā)展變化快,用戶訪問(wèn)頻繁的國(guó)際互聯(lián)網(wǎng)絡(luò)。Internet上的信息資源隨著Internet的發(fā)展也呈現(xiàn)了以下特點(diǎn):

  ·信息量大而且分散:目前,網(wǎng)上有幾千個(gè)匿名FTP服務(wù)器分布在網(wǎng)上的不同區(qū)域,為用戶提供了數(shù)以百萬(wàn)計(jì)的文件資料。我們將在后面提到的WWW技術(shù)給每個(gè)用戶展現(xiàn)自己的機(jī)會(huì),這又構(gòu)成了另一個(gè)廣闊的信息空間。可以說(shuō),Internet是世界范圍內(nèi)的信息量最大的圖書(shū)館,為人們提供了豐富的信息資源。

  ·自治性強(qiáng):作為廣域互連的Internet不是也不可能是由一個(gè)國(guó)家或組織單獨(dú)管理的。提供何種服務(wù),如何提供,使用何種技術(shù)都是由每個(gè)接入Internet的組織自己作主。在這種廣域網(wǎng)的環(huán)境下,要達(dá)成廣泛的一致意見(jiàn)往往比較困難。

  ·信息資源多種多樣: 用戶可以通過(guò)Internet上的多種服務(wù)獲得信息,如FTP,Gopher,Archie,WAIS等等,這些信息資源無(wú)論從內(nèi)容還是形式都呈現(xiàn)出多樣異構(gòu)的特點(diǎn)。

  ·信息變化快:首先,隨著Internet的增加,新的信息不斷涌現(xiàn),其次,現(xiàn)有的信息也在不斷變化。最典型的當(dāng)屬“News”服務(wù),其以GB為單位的信息隔幾天就要更新一次。

  ·不一致性和不完整性。例如,一個(gè)人的信息可以在個(gè)人WWW主頁(yè),X.500目錄服務(wù)等多個(gè)信息源中出現(xiàn),當(dāng)信息發(fā)生改變時(shí),在這些信息源中改動(dòng)的次序和改動(dòng)是否完整都會(huì)影響信息的一致性和完整性。

  信息發(fā)現(xiàn)系統(tǒng)的一個(gè)重要目標(biāo)就是提供給用戶一個(gè)有組織的一致的信息視圖,在設(shè)計(jì)系統(tǒng)時(shí),我們應(yīng)當(dāng)考慮到Internet上信息的特點(diǎn)。

  三、WWW的特點(diǎn)及其迅速發(fā)展

  WWW(World Wide Web)是九十年代初Internet上的全球性的網(wǎng)絡(luò)信息系統(tǒng)。超文本和超媒體是WWW使用的關(guān)鍵技術(shù)。它使文本、圖象、音頻和視頻等信息有機(jī)地結(jié)合起來(lái),提供了豐富的信息表示能力。用戶可以用友好、方便多樣的界面存取信息,成為人們發(fā)布和共享信息的重要工具。越來(lái)越多的公司通過(guò)自己的主頁(yè)展示推銷自己;越來(lái)越多的大學(xué)、科研機(jī)構(gòu)也通過(guò)網(wǎng)頁(yè)來(lái)交流研究成果;越來(lái)越多的個(gè)人也擁有了自己的主頁(yè),所有這些都導(dǎo)致WWW信息迅速膨脹。在1993年下半年,WWW在不到三個(gè)月的時(shí)間里翻了一翻,即使現(xiàn)在WWW也以每六個(gè)月一翻的速度增長(zhǎng)。1995年4月,WWW在網(wǎng)上的流量超過(guò)了Internet上其它服務(wù)的流量,并一直穩(wěn)居首位。據(jù)不完全統(tǒng)計(jì),1996年初,網(wǎng)上大約有1900萬(wàn)網(wǎng)頁(yè),到現(xiàn)在WWW上的網(wǎng)頁(yè)數(shù)決不會(huì)低于2億。

  四、信息發(fā)現(xiàn)服務(wù)的迫切性

  作為一個(gè)無(wú)窮無(wú)盡的信息源泉,Internet為人們提供了巨大的并且還在不斷增長(zhǎng)的信息資源和服務(wù),Internet上各種各樣的信息源源不斷地流向人們。然而在你尋找所需的信息時(shí),Internet又象是一個(gè)信息的迷宮,讓人感覺(jué)無(wú)所適從,不知如何迅速定位自己真正需要的信息,僅依靠超文本鏈在迷宮中漫游,多半會(huì)徒勞無(wú)功。所以,人們迫切希望有信息發(fā)現(xiàn)工具為他們?cè)赪WW上搜尋信息提供導(dǎo)航。

  五、Internet信息發(fā)現(xiàn)技術(shù)的發(fā)展?fàn)顩r

  (一)已有信息發(fā)現(xiàn)系統(tǒng)的回顧

  隨著Internet發(fā)展,Internet上的信息發(fā)現(xiàn)服務(wù)和工具也逐漸發(fā)展起來(lái)。比較典型的有Archie,WAIS, Gopher,X.500等,另外,還有眾多的“搜索引擎”(Search Engine),如Excite,Infoseek,Alta Vista。

  1、Archie實(shí)際上是一個(gè)大型的數(shù)據(jù)庫(kù),和與這個(gè)數(shù)據(jù)庫(kù)相關(guān)的一套檢索方法。(轉(zhuǎn)載自論文之家 http://www.papershome.com,請(qǐng)保留此標(biāo)記。)Archie數(shù)據(jù)庫(kù)存有通過(guò)FTP獲取的資源信息,包括這些資源的文件名、文件長(zhǎng)度、存放該文件的主機(jī)名及目錄。目前,Archie數(shù)據(jù)庫(kù)已存入了大約1200個(gè) FTP服務(wù)器、250萬(wàn)個(gè)文件的資料。Internet上有三十幾個(gè)Archie服務(wù)器,查詢 FTP的任務(wù)分布在各個(gè)服務(wù)器,它們之間通過(guò)執(zhí)行基于擴(kuò)散(flooding_based)的一致性保持協(xié)議,來(lái)保證信息的一致性。Archie的開(kāi)發(fā)者把它描述為資源發(fā)現(xiàn)和信息獲取的低端技術(shù)(low_tech)方案。Archie的成功要?dú)w結(jié)于它的簡(jiǎn)單性和對(duì)已有機(jī)制的利用。Archie有點(diǎn)類似于圖書(shū)館中的檢索卡片。當(dāng)你去圖書(shū)館查閱書(shū)籍時(shí),如果你不知道你要尋找的書(shū)放于哪一個(gè)館區(qū)的哪一個(gè)書(shū)架,那么,你通常不會(huì)挨個(gè)書(shū)架去找,而是會(huì)先查閱圖書(shū)檢索卡片。Archie也一樣,如果你不知道您要拷貝的文件放在哪一臺(tái)FTP 服務(wù)器中,你根本不可能挨個(gè)FTP服務(wù)器去查找,通過(guò)Archie,你可以根據(jù)文件名比較方便地找到文件存貯的位置。不過(guò),Archie沒(méi)有針對(duì)文件的簡(jiǎn)要說(shuō)明,僅通過(guò)文件名進(jìn)行索引,利用Archie檢索時(shí),你必須事先知道文件名或文件名的某些部份。Archie 還有另外一個(gè)不足的地方,就是它收集的資料還不全面。由于是否把 FTP服務(wù)器的資料放入Archie完全取決于自愿原則,錯(cuò)漏或更新不及時(shí)的情況就難以避免。

主站蜘蛛池模板: 洛扎县| 吐鲁番市| 土默特右旗| 亚东县| 建宁县| 水城县| 铜川市| 武隆县| 拜城县| 伽师县| 固原市| 江口县| 涿州市| 丰镇市| 衡东县| 林西县| 杨浦区| 东明县| 海南省| 阿瓦提县| 临海市| 兰州市| 屏东市| 阿克苏市| 招远市| 唐河县| 门源| 托克逊县| 西充县| 密山市| 峨边| 襄汾县| 庄浪县| 加查县| 清涧县| 曲阳县| 高平市| 临汾市| 黄陵县| 白山市| 桦甸市|