2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

分析分布式網(wǎng)絡(luò)信息資源重構(gòu)系統(tǒng)實(shí)現(xiàn)模式

來(lái)源:期刊VIP網(wǎng)所屬分類:土木工程時(shí)間:瀏覽:

  【內(nèi)容提要】網(wǎng)絡(luò)信息資源在數(shù)量和復(fù)雜程度上的同步增長(zhǎng)使機(jī)械遍歷式的信息搜集和檢索技術(shù)越來(lái)越難以滿足大部分用戶的信息需求。這些信息的最終用戶需要對(duì)信息個(gè)體的準(zhǔn)確定位,對(duì)信息源的權(quán)威導(dǎo)航和評(píng)估,個(gè)性化的主動(dòng)信息提供服務(wù)以及基于信息內(nèi)容的跨平臺(tái)鏈接,而且實(shí)現(xiàn)這一切是以一個(gè)繁復(fù)、無(wú)序和龐大的信息世界為基礎(chǔ)和前提的。任何純粹基于人工智能的軟件或算法都難以提供一個(gè)完美的解決,本文試圖提出一個(gè)由分布式人機(jī)交互環(huán)境組成的網(wǎng)絡(luò)信息資源收集、組織和發(fā)布機(jī)制,通過(guò)這個(gè)機(jī)制,人的知識(shí)和智慧在被用來(lái)使紛繁復(fù)雜的網(wǎng)絡(luò)信息資源有序化的同時(shí),又成為其中不可或缺的組成部分。

  一、網(wǎng)絡(luò)信息資源重構(gòu)的概念和方法

  網(wǎng)絡(luò)信息資源是由信息組織或個(gè)人建立的以網(wǎng)絡(luò)為傳播媒體的數(shù)字信息生成、管理和發(fā)布系統(tǒng),是微觀有序化和宏觀無(wú)序化的有機(jī)統(tǒng)一體。每一個(gè)網(wǎng)絡(luò)信息資源個(gè)體都是有序的,其所含信息內(nèi)容是有組織和可訪問(wèn)的;而作為一個(gè)整體,網(wǎng)絡(luò)信息資源又具有高度的系統(tǒng)復(fù)雜性,難以從整體上加以充分的利用。這就是要對(duì)網(wǎng)絡(luò)信息資源進(jìn)行重新組織的主要原因。

  所謂網(wǎng)絡(luò)信息資源的重構(gòu)就是針對(duì)網(wǎng)絡(luò)信息源及其內(nèi)容,按照特定的線索化方式,由人工或計(jì)算機(jī)軟件實(shí)施的信息收集、組織、整理和傳播工作的總和。經(jīng)過(guò)重構(gòu)后,網(wǎng)絡(luò)信息資源整體(或某個(gè)局部)上成為有序化結(jié)構(gòu),并且為訪問(wèn)者提供獲得其所需信息的充分檢索手段,同時(shí),在一定程度上,不同信息源之間的物理界限在邏輯上被屏蔽。

  如果說(shuō)網(wǎng)絡(luò)信息資源宏觀的無(wú)序化是實(shí)施其重構(gòu)的主要原因的話,網(wǎng)絡(luò)信息資源微觀的有序化則是實(shí)施其重構(gòu)的必要條件。換句話說(shuō),網(wǎng)絡(luò)信息資源個(gè)體有序化程度和水平,盡管不能直接導(dǎo)致網(wǎng)絡(luò)信息資源整體的有序化,但卻可以影響通過(guò)重構(gòu)以實(shí)現(xiàn)其有序化的方式和難易。例如,一個(gè)信息源如果在信息描述、數(shù)據(jù)庫(kù)定義和訪問(wèn)方式等方面遵守一定的國(guó)際標(biāo)準(zhǔn),它就更容易成為一個(gè)網(wǎng)絡(luò)信息資源集合的有機(jī)組成部分。

  一個(gè)網(wǎng)絡(luò)信息資源集合是由若干信息源組成(如數(shù)據(jù)庫(kù)),而一個(gè)信息源又是由若干同序的信息實(shí)體組成(如數(shù)據(jù)庫(kù)記錄)。[1]因此,對(duì)于網(wǎng)絡(luò)信息資源的重構(gòu)可以分為兩個(gè)層次:針對(duì)信息源的重構(gòu)和針對(duì)信息實(shí)體的重構(gòu)。針對(duì)信息源的重構(gòu)將導(dǎo)致一種導(dǎo)引性的信息組織及相應(yīng)的服務(wù)方式,其功能是滿足用戶對(duì)于獲知信息存放位置或信息來(lái)源的需求。針對(duì)信息實(shí)體的重構(gòu)將導(dǎo)致一種實(shí)體性的組織方式和推送式的服務(wù)方式,其功能是直接滿足用戶對(duì)獲得信息本身的需求。前者的實(shí)例包括一些網(wǎng)絡(luò)資源導(dǎo)航、資源鏈接目錄和信息源數(shù)據(jù)庫(kù)等。而后者則正是我們正在或?qū)⒁獙?shí)現(xiàn)的。在本系統(tǒng)中,邏輯上信息源和信息實(shí)體被統(tǒng)一視為某個(gè)信息對(duì)象來(lái)加以描述、整序和管理。

  利用人工和計(jì)算機(jī)是實(shí)現(xiàn)網(wǎng)絡(luò)信息資源重構(gòu)的主要手段,尤其是后者,由于其高效率和全面的信息覆蓋能力而在近幾年逐漸成為主流。[2]大型的信息導(dǎo)航網(wǎng)站(如Yahoo等)和檢索引擎(如Google等)都是利用軟件自動(dòng)搜索網(wǎng)上的信息資源并加以組織和整理,然后供用戶檢索和使用的。人工的手段由于成本、規(guī)模和效率的限制被迫處于輔助性地位,只能應(yīng)用在一些局部性的系統(tǒng)中。然而,由于人工智能技術(shù)的局限,計(jì)算機(jī)軟件在對(duì)信息形式和內(nèi)容(尤其是內(nèi)容)進(jìn)行辨別、理解、描述和分析時(shí)所能達(dá)到的質(zhì)量還遠(yuǎn)遠(yuǎn)不能和人的智力相提并論[3],特別是計(jì)算機(jī)軟件無(wú)法對(duì)信息內(nèi)容的學(xué)術(shù)質(zhì)量加以權(quán)威性的鑒定和評(píng)估(顯然,只有人,而且是具有一定學(xué)術(shù)背景的人才能完成這個(gè)工作)。[4]

  于是,問(wèn)題被歸結(jié)為:如何在網(wǎng)絡(luò)信息資源的重構(gòu)過(guò)程中使人的智力與計(jì)算機(jī)技術(shù)有效的結(jié)合起來(lái)。這里的“有效”應(yīng)該包含三個(gè)方面的意義:可以接受的成本;足夠大的規(guī)模;充分滿足特定用戶群的信息需求。而本文提出的解決方案則可以歸結(jié)為:通過(guò)建立具有分布式網(wǎng)絡(luò)信息資源組織和管理功能的技術(shù)平臺(tái),為專業(yè)學(xué)術(shù)研究人員收集、整理、組織和發(fā)布其相關(guān)學(xué)科的信息資源提供方便、科學(xué)和高效的技術(shù)手段,從而實(shí)現(xiàn)人的智力和計(jì)算機(jī)技術(shù)在網(wǎng)絡(luò)信息資源重構(gòu)過(guò)程中的有機(jī)結(jié)合。

  二、分布式信息收集、組織和管理模式的實(shí)現(xiàn)

  分布式的網(wǎng)絡(luò)信息資源重構(gòu)模式由三個(gè)層次組成:(1)第一層次是按學(xué)科分類組織和發(fā)布信息資源內(nèi)容的學(xué)科信息服務(wù)網(wǎng)站群平臺(tái),它是由信息服務(wù)中介機(jī)構(gòu)(如圖書館)實(shí)施組織和管理的集中式網(wǎng)絡(luò)學(xué)科信息資源目錄體系和系統(tǒng)技術(shù)支持機(jī)制。(2)第二層次是實(shí)施分布式信息收集、組織和管理的內(nèi)容管理員群體及其工具平臺(tái),它是由具有較高學(xué)術(shù)背景和網(wǎng)絡(luò)信息資源獲取能力的專業(yè)研究人員,如高校教師或在讀博士生組成內(nèi)容管理員群體,利用相關(guān)工具平臺(tái)建設(shè)各自專業(yè)的學(xué)科信息服務(wù)網(wǎng)站。(3)第三層次是提供信息交互和反饋功能的信息用戶應(yīng)用平臺(tái),它是用戶獲得由內(nèi)容管理員收集、組織和發(fā)布的信息的渠道,同時(shí)用戶可以通過(guò)該平臺(tái)向相應(yīng)內(nèi)容管理員推薦信息資源、進(jìn)行學(xué)術(shù)咨詢和其他信息交互。

  其中支持分布式內(nèi)容管理的內(nèi)容管理員工作平臺(tái),即網(wǎng)絡(luò)資源管理系統(tǒng)是實(shí)現(xiàn)該模式主要功能的關(guān)鍵。

  網(wǎng)絡(luò)資源管理系統(tǒng)是由圖書館實(shí)施建設(shè)和管理的一個(gè)通過(guò)Web發(fā)布和展示信息資源的服務(wù)體系,由圖書館所屬高校相關(guān)教學(xué)科研人員負(fù)責(zé)收集、整理、組織和管理Internet上相應(yīng)學(xué)科、專業(yè)領(lǐng)域的信息資源,加以評(píng)估、介紹和研究并通過(guò)圖書館的信息服務(wù)系統(tǒng)在網(wǎng)上發(fā)布,從而共同構(gòu)成具有學(xué)科特點(diǎn)的專業(yè)信息服務(wù)網(wǎng)站群。

  內(nèi)容管理員是在網(wǎng)絡(luò)資源管理系統(tǒng)中具有學(xué)科背景的信息收集者、組織者和發(fā)布者,對(duì)某個(gè)學(xué)科領(lǐng)域具有一定學(xué)術(shù)背景和興趣(最好在該領(lǐng)域正在從事相關(guān)教學(xué)或科研工作),具有一定的圖書館學(xué)和信息處理的學(xué)術(shù)水平,熟練掌握網(wǎng)絡(luò)信息搜索和獲取的技術(shù),具有一定的協(xié)調(diào)和管理能力,并且能夠隨時(shí)監(jiān)測(cè)相關(guān)信息源的信息更新情況。內(nèi)容管理員是分布式內(nèi)容管理機(jī)制的核心。他們把信息收集、組織和整理作為其教學(xué)科研工作的一個(gè)部分來(lái)完成,這決定了他們與一般的圖書館學(xué)科館員的主要區(qū)別。

  信息資源重構(gòu)的質(zhì)量很大程度上取決于對(duì)構(gòu)成它的諸信息源內(nèi)容的理解深度,或者使用程度。學(xué)科信息資源服務(wù)不必刻意去追求所選信息源的數(shù)量的眾多和種類的齊全,而更看重這些信息源是否最適合相關(guān)學(xué)術(shù)領(lǐng)域的使用需要,并具有足夠的權(quán)威性。而能夠?qū)π畔⒃吹馁|(zhì)量進(jìn)行可靠的判斷的人,必須具有足夠的學(xué)術(shù)背景,并且在相關(guān)學(xué)科的研究前沿具有一定的活躍程度。這就對(duì)選擇和組織內(nèi)容管理員隊(duì)伍提出了較高的要求。

  內(nèi)容管理員介入信息收集、組織和整理工作的方式是把它作為其教學(xué)科研工作的一個(gè)部分(盡管很可能是一個(gè)從屬的部分)來(lái)完成。之所以要實(shí)現(xiàn)分布式的內(nèi)容管理模式的主要原因也正在于此,不如此就無(wú)法充分而有效地利用高校學(xué)科專業(yè)人員從事信息服務(wù)工作的潛力。在教學(xué)科研工作過(guò)程中,信息的收集和組織本來(lái)就是一項(xiàng)必不可少的工作,對(duì)于本學(xué)科相關(guān)網(wǎng)絡(luò)信息資源的了解和使用水平也越來(lái)越成為高校教師研究能力的重要標(biāo)志之一。利用分布式的內(nèi)容管理機(jī)制,把分散于學(xué)校各個(gè)角落的學(xué)科信息服務(wù)力量組織起來(lái),無(wú)疑是高校圖書館建設(shè)網(wǎng)絡(luò)信息資源的有效途徑。

  傳統(tǒng)圖書館(包括高校圖書館)在信息服務(wù)過(guò)程中主要起到信息資源指引中介的作用,而較少起到信息咨詢中介作用,尤其是當(dāng)這種咨詢具有較強(qiáng)的學(xué)科特點(diǎn)和學(xué)術(shù)深度時(shí)。而在本文所構(gòu)建的模式中,內(nèi)容管理員利用其優(yōu)越的學(xué)術(shù)背景和分布式、交互式的信息組織和發(fā)布工具,可以最大限度地將其智力和學(xué)科知識(shí)體現(xiàn)在相關(guān)學(xué)科的信息服務(wù)中。這種體現(xiàn)既表現(xiàn)為對(duì)靜態(tài)的和外部的信息資源收集、組織和評(píng)價(jià)的質(zhì)量與深度,還表現(xiàn)為內(nèi)容管理員可以通過(guò)系統(tǒng)的信息交互平臺(tái)直接解答讀者的學(xué)術(shù)問(wèn)題,也就是將其大腦中的智力和知識(shí)動(dòng)態(tài)化地提供給讀者。這也就是前文中提到過(guò)的通過(guò)這個(gè)機(jī)制,人的知識(shí)和智慧在被用來(lái)使紛繁復(fù)雜的網(wǎng)絡(luò)信息資源有序化的同時(shí),又成為其中不可或缺的組成部分。在這里,內(nèi)容管理員既是學(xué)科信息的收集者和組織者,很可能同時(shí)又是某些信息的生成者。

  網(wǎng)絡(luò)應(yīng)用的日益普及為分布式內(nèi)容管理提供了技術(shù)上的可行性,而網(wǎng)絡(luò)資源管理系統(tǒng)則為它的實(shí)施提供了管理上的可行性。[5]同時(shí),隨著電子文獻(xiàn)在數(shù)量和質(zhì)量上的迅速增長(zhǎng),人們?cè)诮虒W(xué)科研過(guò)程中對(duì)電子信息資源的依賴程度和掌握能力也同步地增長(zhǎng),這就為內(nèi)容管理員群體提供了越來(lái)越充分的人力資源背景。

  三、網(wǎng)絡(luò)資源管理系統(tǒng)的設(shè)計(jì)和開(kāi)發(fā)網(wǎng)絡(luò)信息資源重構(gòu)的工具平臺(tái)

  設(shè)計(jì)和開(kāi)發(fā)網(wǎng)絡(luò)資源管理系統(tǒng)是實(shí)現(xiàn)分布式網(wǎng)絡(luò)信息資源重構(gòu)模式的核心任務(wù),一個(gè)功能完善的網(wǎng)絡(luò)資源管理系統(tǒng)能夠起到以下作用:

  ·向讀者提供網(wǎng)絡(luò)信息資源的宏觀和微觀視圖以及相應(yīng)的訪問(wèn)方式;

  ·向內(nèi)容管理員提供便利、高效的信息收集、組織和發(fā)布工具平臺(tái);

  ·向系統(tǒng)管理員提供用戶管理、資源監(jiān)測(cè)、資源評(píng)估等系統(tǒng)管理功能。

  以下筆者將根據(jù)在主持清華大學(xué)圖書館“985”電子圖書館建設(shè)項(xiàng)目的課題“網(wǎng)絡(luò)資源管理系統(tǒng)的開(kāi)發(fā)和應(yīng)用”過(guò)程中的思路和經(jīng)驗(yàn),對(duì)網(wǎng)絡(luò)資源管理系統(tǒng)的結(jié)構(gòu)和功能加以概括。如圖1所示:

  附圖

  圖1 網(wǎng)絡(luò)資源導(dǎo)航系統(tǒng)總體結(jié)構(gòu)

  網(wǎng)絡(luò)資源管理系統(tǒng)包括5個(gè)方面的內(nèi)容:

  (一)網(wǎng)絡(luò)資源的描述。網(wǎng)絡(luò)資源的描述是通過(guò)對(duì)相關(guān)元數(shù)據(jù)的制訂來(lái)實(shí)施的,經(jīng)過(guò)調(diào)研,確定以專門用來(lái)組織網(wǎng)絡(luò)資源并且易于操作的都柏林元數(shù)據(jù)核心元素集(Dublin Metadata Core Element Set,簡(jiǎn)稱DC)為基本集合,結(jié)合用戶的檢索要求、網(wǎng)絡(luò)資源的特點(diǎn)以及系統(tǒng)的信息挖掘、資源監(jiān)測(cè)和評(píng)估等高級(jí)功能,增加了相應(yīng)的屬性,制定出一套用以幫助識(shí)別、描述、定位、組織和管理網(wǎng)絡(luò)資源的元數(shù)據(jù)集合:網(wǎng)絡(luò)資源管理元數(shù)據(jù)(Network Resource Management Metadata,簡(jiǎn)稱NRMM)。

  (二)網(wǎng)絡(luò)資源收集、整理、組織和發(fā)布工具。工具平臺(tái)包括各級(jí)用戶注冊(cè)模塊、內(nèi)容管理員資源添加、管理和維護(hù)模塊、內(nèi)容管理員站務(wù)管理模塊和普通用戶推薦資源模塊。在網(wǎng)絡(luò)信息導(dǎo)航系統(tǒng)平臺(tái)上,系統(tǒng)的功能分為兩種:

  第一種是需要人工參與的,包括面向系統(tǒng)管理員、內(nèi)容管理員和普通用戶等三種參與者的相應(yīng)功能。其中,系統(tǒng)管理員具有最高權(quán)限,包括管理內(nèi)容管理員和用戶的屬性信息、設(shè)置學(xué)科等;內(nèi)容管理員負(fù)責(zé)分布式地收集、標(biāo)引、組織和發(fā)布網(wǎng)絡(luò)信息資源,以及審查由用戶推薦的資源;普通用戶可以瀏覽系統(tǒng)內(nèi)現(xiàn)有資源和推薦新資源供內(nèi)容管理員審查,同時(shí)還可進(jìn)行信息反饋和交互。

  另一種系統(tǒng)功能是由系統(tǒng)自動(dòng)執(zhí)行的,具體包括網(wǎng)絡(luò)信息源的自動(dòng)監(jiān)測(cè)和質(zhì)量評(píng)估、網(wǎng)絡(luò)信息挖掘和提供。

  (三)網(wǎng)絡(luò)信息源的自動(dòng)監(jiān)測(cè)和質(zhì)量評(píng)估。網(wǎng)絡(luò)信息導(dǎo)航庫(kù)的資源質(zhì)量控制是通過(guò)人工審核和自動(dòng)監(jiān)測(cè)相結(jié)合來(lái)實(shí)現(xiàn)的,網(wǎng)絡(luò)資源管理系統(tǒng)主要提供自動(dòng)監(jiān)測(cè)和基于自動(dòng)獲取指標(biāo)數(shù)據(jù)的質(zhì)量評(píng)估機(jī)制。[6][7]由于網(wǎng)上資源的變動(dòng)性很大,因此,為了保證系統(tǒng)中資源的可用性和新穎性,這種定期監(jiān)測(cè)評(píng)估是必需的。

  針對(duì)學(xué)術(shù)性資源,主要著眼于網(wǎng)站的內(nèi)容和它的結(jié)構(gòu)與系統(tǒng)機(jī)能進(jìn)行評(píng)估。由于本系統(tǒng)所收集的網(wǎng)站信息資源已經(jīng)十分龐雜,采取人工方式進(jìn)行評(píng)估耗時(shí)耗力,因此,采取軟件實(shí)時(shí)測(cè)試的自動(dòng)評(píng)估方式。目前,將測(cè)試指標(biāo)定為網(wǎng)站的鏈接狀態(tài)和特征頁(yè)面信息提取等幾項(xiàng),同時(shí)會(huì)記錄每一個(gè)被監(jiān)測(cè)對(duì)象的監(jiān)測(cè)時(shí)間和監(jiān)測(cè)周期,通過(guò)系統(tǒng)定時(shí)執(zhí)行監(jiān)測(cè)程序并保存監(jiān)測(cè)結(jié)果。監(jiān)測(cè)結(jié)果最終會(huì)向系統(tǒng)的內(nèi)容管理員發(fā)出監(jiān)測(cè)報(bào)告的通知,從而起到保持和維護(hù)信息資源系統(tǒng)的監(jiān)督作用。

  (四)網(wǎng)絡(luò)信息挖掘和提供。采用內(nèi)容管理員模式來(lái)收集專業(yè)網(wǎng)絡(luò)資源,提高了資源的精度和深度,但是,網(wǎng)絡(luò)資源浩如煙海,光靠?jī)?nèi)容管理員人工查找是無(wú)法達(dá)到廣度要求的。因此,采用自動(dòng)抓取和人工過(guò)濾相結(jié)合的方式,即用非結(jié)構(gòu)化的數(shù)據(jù)挖掘技術(shù)獲取更有價(jià)值的信息。

  數(shù)據(jù)挖掘一般包含如下幾個(gè)步驟:(1)理解相應(yīng)的問(wèn)題領(lǐng)域;(2)準(zhǔn)備相關(guān)數(shù)據(jù)子集;(3)發(fā)現(xiàn)模式(數(shù)據(jù)挖掘);(4)所發(fā)現(xiàn)模式的后處理;(5)應(yīng)用發(fā)現(xiàn)結(jié)果。本系統(tǒng)中數(shù)據(jù)挖掘部分的工作流程主要分以下幾步:建立關(guān)鍵詞表、源文檔采集、信息過(guò)濾、用戶瀏覽信息。[8]

  數(shù)據(jù)挖掘部分是一個(gè)人機(jī)結(jié)合的部分,它通過(guò)分工使人和計(jì)算機(jī)的特長(zhǎng)都得到了充分的發(fā)揮。數(shù)據(jù)挖掘功能大大減輕了內(nèi)容管理員的工作負(fù)擔(dān),增加了系統(tǒng)中網(wǎng)絡(luò)資源的深度和廣度,并且有一定智能性,可以對(duì)搜索到的數(shù)據(jù)進(jìn)行剔重、加權(quán)等處理。

  (五)讀者信息反饋和交互。網(wǎng)絡(luò)信息資源導(dǎo)航的最終目的是幫助網(wǎng)絡(luò)信息用戶更充分,更有效地利用各種網(wǎng)絡(luò)信息資源,服務(wù)于用戶的學(xué)術(shù)研究、教學(xué)和學(xué)習(xí)。用戶與系統(tǒng)之間、用戶與用戶之間的信息交互會(huì)在達(dá)成上述目的的過(guò)程中起到重要的作用。網(wǎng)絡(luò)資源管理系統(tǒng)主要提供以下5種信息交互模式:用戶網(wǎng)上調(diào)查、用戶留言、電子公告版、網(wǎng)上傳呼和在線討論區(qū)。除了上述用戶主動(dòng)信息提供方式外,系統(tǒng)還會(huì)在用戶使用系統(tǒng)各種功能和資源的過(guò)程中自動(dòng)收集、整理和分析用戶的操作信息,如點(diǎn)擊頁(yè)面、鏈接選擇、輸入檢索詞等,從中了解用戶的需求和學(xué)科興趣,為向用戶提供個(gè)性化服務(wù)收集相關(guān)信息。

  用戶信息反饋和交互是網(wǎng)絡(luò)資源管理系統(tǒng)的重要功能,它的實(shí)現(xiàn)被分散在系統(tǒng)的各種模塊中,使系統(tǒng)更加友好和智能化。

主站蜘蛛池模板: 镇原县| 芜湖县| 丹巴县| 延吉市| 怀宁县| 田阳县| 仪征市| 岱山县| 察隅县| 赤水市| 万年县| 和林格尔县| 手游| 手游| 根河市| 邳州市| 岱山县| 西充县| 林州市| 肃宁县| 商洛市| 揭东县| 乌鲁木齐县| 右玉县| 滨海县| 铁岭县| 兴隆县| 罗源县| 南溪县| 神农架林区| 固原市| 隆尧县| 绥芬河市| 贺州市| 彰武县| 阿拉尔市| 呼和浩特市| 广德县| 内黄县| 裕民县| 临桂县|