2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

大數(shù)據(jù)背景下的圖書館讀者借閱行為分析

來源:期刊VIP網(wǎng)所屬分類:綜合論文時間:瀏覽:

  摘 要: 圖書館讀者的數(shù)量大、借閱行為復(fù)雜多變,而傳統(tǒng)圖書館讀者借閱行為分析方法精度不高,且工作效率極低,無法滿足現(xiàn)代圖書館管理的要求。為了更好地刻畫圖書館讀者借閱行為,提高圖書館讀者借閱行為分析的準確性,設(shè)計了大數(shù)據(jù)背景下的圖書館讀者借閱行為分析方法。首先,分析圖書館讀者借閱行為的研究現(xiàn)狀,對圖書館讀者借閱行為分析數(shù)據(jù)進行聚類分析,并提取圖書館讀者借閱行為分析特征;然后,采用大數(shù)據(jù)分析技術(shù)——最小二乘支持向量機對圖書館讀者借閱行為變化特點進行擬合,構(gòu)建圖書館讀者借閱行為分析模型;最后進行圖書館讀者借閱行為分析實例驗證。結(jié)果表明,大數(shù)據(jù)背景下的圖書館讀者借閱行為分析精度超過93%,而當前其他分析方法的精度均小于90%,同時,減少了圖書館讀者借閱行為分析時間,所提方法分析速度明顯加快,具有顯著的優(yōu)勢。

  關(guān)鍵詞: 借閱行為分析; 圖書館讀者; 聚類分析; 特點擬合; 分析模型構(gòu)建; 實例驗證

大數(shù)據(jù)論文

  0 引 言

  圖書館是人們獲取知識的重要場所,其對高校的教學質(zhì)量、科研起著重要的作用,全國各地的高校均建立了自己的圖書館管理系統(tǒng),大幅度提高了圖書館的管理水平,也減輕了圖書管理員的工作量[1?3]。圖書館管理系統(tǒng)經(jīng)過多年運營,積累了大量的歷史數(shù)據(jù),如圖書數(shù)據(jù)、讀者數(shù)據(jù)等,對這些數(shù)據(jù)進行深度挖掘,掌握讀者的借閱行為習慣和規(guī)律,可以為讀者提供更優(yōu)的服務(wù),因此,對圖書館讀者的借閱行為進行研究,對于提高圖書館的管理水平具有十分重要的意義[4?5]。

  最初由于圖書館讀者借閱行為的歷史數(shù)據(jù)較少,通常采用人工方式對圖書館讀者借閱行為進行簡單的統(tǒng)計與分析,難以充分找到圖書館讀者借閱行為的規(guī)律,館藏資源利用率低[6]。隨著自動化技術(shù)、信息處理技術(shù)的不斷發(fā)展,出現(xiàn)了許多基于數(shù)據(jù)挖掘技術(shù)的圖書館讀者借閱行為分析方法[7],如基于時間序列分析法的圖書館讀者借閱行為分析方法[8],根據(jù)時間前后采集圖書館讀者借閱行為,但是其無法全面、客觀地描述圖書館讀者借閱行為變化特點,使得圖書館讀者借閱行為分析結(jié)果不可靠[9];基于關(guān)聯(lián)規(guī)則算法的圖書館讀者借閱行為分析方法,反映了圖書館讀者與借閱活動之間的聯(lián)系[10],但是其屬于線性分析技術(shù),而圖書館讀者與借閱活動之間的聯(lián)系具有隨機性,即非線性,因此圖書館讀者借閱行為分析誤差大[11];有學者提出了基于流通日志的高校學生圖書借閱行為分析方法[12],從流量日志找到讀者圖書借閱行為變化規(guī)律,但是由于當前流通日志數(shù)據(jù)量相當大,其圖書館讀者借閱行為分析時間長,效率低[13?15]。

  為了更好地描述圖書館讀者借閱行為變化特點,獲得高精度的圖書館讀者借閱行為分析結(jié)果,提出大數(shù)據(jù)背景下的圖書館讀者借閱行為分析方法,并通過實例分析本文圖書館讀者借閱行為分析方法的有效性和優(yōu)越性。

  1 大數(shù)據(jù)背景下的圖書館讀者借閱行為分析方法

  1.1 聚類分析算法

  對于[n]個圖書館讀者借閱行為分析數(shù)據(jù)[X={x1,x2,…,xi,…,xn}],設(shè)有[k]個聚類,即有[k]個類別的圖書館讀者借閱行為,聚類分析算法的工作原理為:從[n]個圖書館讀者借閱行為數(shù)據(jù)中隨機選擇[k]個圖書館讀者借閱行為數(shù)據(jù)為初始聚類中心,其他圖書館讀者借閱行為數(shù)據(jù)根據(jù)其與聚類中心距離分別分配到最相似的類別中。

  1) [cj]表示第[j]類的圖書館讀者借閱行為類的中心,那么[xi]和[cj]的距離為:

  [d(xi,cj)=(xi1-cj1)2+(xi2-cj2)2+…+(xid-cjd)2] (1)

  [xi]和[cj]之間的相似度計算公式為:

  [s(xi,cj)=1d(xi,cj)] (2)

  2) 對所有聚類中心進行更新,第[j]個類別的圖書館讀者借閱行為分析樣本集合為[{xj1,xj2,…,xjnj}],相應(yīng)聚類中心為[cj=(c1j,c2j,…,ckj,…,cdj)],[ckj]為[cj]的第[k]個屬性,具體如下:

  [ckj=xkj1+xkj2+…+xkjnjnj] (3)

  3) 不斷重復(fù)上述步驟,直到更新后的類中心和更新前一致為止,采用均方差作為測度標準,即:

  [J=i=1kj=1ni(xij-ci)2(n-1)] (4)

  通過上述步驟,就可以得到一個圖書館讀者借閱行為分析樣本的相似歷史樣本數(shù)量,不用選擇所有的圖書館讀者借閱行為歷史樣本進行建模,減少了圖書館讀者借閱行為分析樣本數(shù)量,可以提高圖書館讀者借閱行為分析效率。

  1.2 提取圖書館讀者借閱行為分析特征

  每個圖書館讀者借閱行為有自己的特征,可以根據(jù)這些特征來識別相應(yīng)的圖書館讀者借閱行為。本文從3個方面提取讀者借閱行為特征:

  1) 讀者借閱圖書的月時間、周時間和時段;

  2) 讀者專業(yè)、讀者學歷、讀者的職業(yè)、讀者的年齡段;

  3) 讀者借閱書籍類型、讀者借閱書籍數(shù)量。

  1.3 圖書館讀者借閱行為分析算法

  由于圖書館讀者的數(shù)量大、借閱行為復(fù)雜多變,結(jié)合該特點,本文采用大數(shù)據(jù)分析技術(shù)——最小二乘支持向量機對圖書館讀者借閱行為變化特點進行擬合,構(gòu)建圖書館讀者借閱行為分析模型。給定[M]個圖書館讀者借閱行為分析數(shù)據(jù)[{xi,yi}],[i=1,2,…,n],構(gòu)造最優(yōu)圖書館讀者借閱行為分析數(shù)據(jù)決策函數(shù):

  [f(x)=wTφ(x)+b] (5)

  式中:[b]為偏置量;[w]為權(quán)值向量。

  根據(jù)現(xiàn)代統(tǒng)計學理論得到滿足式(5)的條件為:

  [yi-wTφ(x)+b≤εmin J=12wTw] (6)

  根據(jù)最小二乘支持向量機的工作原理將式(6)轉(zhuǎn)換為:

  [minw,b,eJ(w,e)=12wTw+12γi=1ne2is.t. yi=wTφ(xi)+b+ei] (7)

  式中[γ]表示控制誤差的懲罰程度。

  引入拉格朗日乘子法解決式(7),建立拉格朗日函數(shù):

  [L(w,b,e,α,γ)=12wTw+12γi=1ne2i-i=1nαi(wTφ(xi)-b+ei-yi)] (8)

  式中[αi]表示拉格朗日乘子。

  根據(jù)優(yōu)化條件[?L?w=0,?L?b=0,?L?ei=0,?L?αi=0],消除[w]和[e],定義核函數(shù)[K(xi,xj)=φT(xi)φ(xj)],得到圖書館讀者借閱行為分析模型為:

  [yi=i=1nαiK(xi,xj)+b ] (9)

  1.4 大數(shù)據(jù)背景下的圖書館讀者借閱行為分析原理

  推薦閱讀:大數(shù)據(jù)挖掘的論文投刊指導

主站蜘蛛池模板: 灵丘县| 前郭尔| 尖扎县| 连云港市| 绥化市| 乌恰县| 巴楚县| 中超| 洛隆县| 罗田县| 西林县| 阿勒泰市| 芒康县| 夹江县| 珠海市| 长汀县| 三穗县| 区。| 常山县| 如东县| 繁昌县| 邯郸县| 乐业县| 金寨县| 威海市| 肇源县| 息烽县| 双鸭山市| 鸡东县| 横山县| 大化| 定远县| 大安市| 博客| 阜南县| 开原市| 延津县| 淮滨县| 金乡县| 博兴县| 鲁山县|