幫忙發表論文搜索引擎日志分析方法技術應用

來源：期刊VIP網所屬分類：計算機網絡時間：瀏覽：次

　　論文摘要：文章介紹了“天網”系統中的信息統計子系統。信息統計子系統是為系統管理人員評估系統性能、維護系統效率、更好滿足用戶的查詢要求而設計實現的。本文給出了信息統計子系統的總體結構，并詳細介紹了該子系統的兩個重要部分，數據庫信息處理和日志文件信息處理的設計目標和實現算法，并介紹了如何讓機器自動學習新詞。

　　關鍵詞：搜索引擎、信息統計、機器學習新詞

　　第一章背景介紹

　　§1.1 Internet 和 WWW 的發展與現狀

　　Internet是一個規模巨大、自治性強、發展變化快，用戶訪問頻繁的國際互聯網絡。

　　Internet的前身是60年代末，70年代初美國國防部高級研究計劃署的實驗性網絡ARPANET。組建ARPANET的最初原因是當時計算機的價格非常昂貴，所以科研工作者們想通過網絡進行遠程計算。后來，人們才逐漸認識到它作為通訊手段的好處。1983年后，ARPANET中有關軍事的部分被隔離為MILNET。其后，1986年誕生的美國國家科學基金會NSFNET對Internet的發展起了劃時代的作用。

　　90年代初到現在，是Internet增長最迅速的時期。1993年，Internet的增長速度是341%。截止到1996年7月，Internet已連接了134336個網絡，入網主機1228萬臺，以及數以億計的用戶。Internet上的信息資源隨著Internet的發展也呈現出以下特點：

　　? 信息量大而且分散

　　? 自治性強

　　? 信息資源多種多樣

　　? 信息變化快

　　? 不一致和不完整性

　　這些特點對網絡軟件的性能提出了很高的要求。

　　World Wide Web(WWW)是全球性的網絡信息系統。一九八九年，位于瑞士的European Laboratory for Particle Physics(CERN)首先開始了WWW的研究工作。隨后，許多其它的研究機構、大學和公司也加入WWW研究者的行列，并相繼開發出各自的WWW軟件。這些WWW軟件的運行平臺覆蓋了目前主流的計算機硬件和操作系統。在此過程中，WWW也不斷完善和發展。同時，為了保證不同WWW軟件之間的互操作性，一系列WWW協議和標準也正在使用和完善之中。

　　WWW是基于超文本(Hypertext)和超媒體(Hypermedia)的分布式信息系統。超文本和超媒體是信息的一種組織形式，如圖1.1所示：

　　在超文本文件中，包含有許多指針，這些指針被稱為超文本鏈(Hyperlink)。每一個超文本鏈都指向其它的超文本信息。這些超文本信息可能存放在同一臺計算機中，也可能存放在WWW信息系統的其它計算機中。讀者并不關心這些超文本信息存放在何處，如果他們想了解這些信息，他們就可以通過超文本鏈得到。超媒體是對超文本的擴展。在超媒體系統中，超媒體鏈可以指向任何媒體信息，包括圖象、音頻、視頻等等。超文本和超媒體為用戶進行信息檢索提供了極大的方便。

　　§1.2 搜索引擎技術的發展與現狀

　　隨著WWW的迅速發展，Internet上出現了WWW信息查詢服務，它們通常被稱作搜索引擎。這些搜索引擎一般是預先由程序自動地在網上遞歸地訪問WWW頁面，將訪問的信息存入數據庫。然后將數據庫中的信息建立索引，并提供給用戶WWW的查詢界面。搜索引擎根據用戶的請求查詢數據庫，并將結果按相關程度排序后輸出給用戶。

　　目前的搜索引擎大致可分為三大類：分類編目搜索引擎(Directory Search Engine)、機器人搜索引擎(Robots Search Engine)和元搜索引擎(Meta Search Engine)。分類編目搜索引擎以Yahoo公司的Yahoo!為代表，機器人搜索引擎以Digital的AltaVista、Inktomi公司的HotBot為代表, 元搜索引擎以go2net的MetaCrawler為代表。

　　國外搜索引擎起步較早，功能全面，性能良好，但是它們的共同缺點是都不能很好地支持中文信息的發現和查詢。雖然AltaVista、Yahoo等搜索引擎在1998年上半年宣布支持中文，但在對中文信息的處理上尚存在很多不足，如不能準確切詞，不能在上下文環境中理解語義等等。

　　第二章系統概述

　　§2.1 系統的總體結構

　　“天網(WebGather)”中英文搜索引擎系統是為滿足用戶對中國教育科研計算機網(CERNET)及INTERNET上的信息資源的檢索和查找需要而研制開發的。本系統的研制列入CERNET應用系統課題項目，其目標是建立CERNET上能廣泛應用的WWW資源索引與查找系統。它符合相關的INTERNET標準，能夠自動對WWW信息進行定向搜集，同時建立WWW資源索引數據庫，以滿足遠程WWW瀏覽器的交互式查詢請求，并將查詢的結果以HTML文件的形式返回給用戶。

　　本系統主要由WWW信息存取和分析子系統、WWW信息收集控制子系統、NEWS收集分析子系統、資源索引數據庫、信息檢索子系統、管理和監控子系統等幾個部分組成。其總體結構如圖2.1所示。

　　§2.2系統技術特征

　　本系統有以下技術特征：

　　1. 信息收集符合Internet的相關協議和標準。

　　因為本系統收集的主要是Internet上的信息，所以在設計開發時把對有關協議和標準的支持作為一個重要的目標。這些協議和標準包括：HTTP協議、MIME、HTML語言、WWW Robots標準、NNTP協議。

　　2. 實用、高效的信息分析方法。

　　本系統主要根據HTML中不同的Tag區分頁面中各個部分信息內容在文章中的重要性和所處的位置，并結合使用中文分詞、詞頻統計和一定的自然語言理解技術，智能化地提取該頁面的關鍵詞和摘要。

上一篇：論文如何發表鐵路貨車車鉤檢修質量對車輛連掛可靠性影響

下一篇：淺論米德符號互動論互聯網交流

2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

幫忙發表論文搜索引擎日志分析方法技術應用

查看北核目錄大全及期刊首頁

更多計算機網絡文章推薦

專題專項服務