2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

大數(shù)據(jù)背景下的圖書館讀者借閱行為分析

來源:期刊VIP網(wǎng)所屬分類:綜合論文時間:瀏覽:

  摘 要: 圖書館讀者的數(shù)量大、借閱行為復雜多變,而傳統(tǒng)圖書館讀者借閱行為分析方法精度不高,且工作效率極低,無法滿足現(xiàn)代圖書館管理的要求。為了更好地刻畫圖書館讀者借閱行為,提高圖書館讀者借閱行為分析的準確性,設計了大數(shù)據(jù)背景下的圖書館讀者借閱行為分析方法。首先,分析圖書館讀者借閱行為的研究現(xiàn)狀,對圖書館讀者借閱行為分析數(shù)據(jù)進行聚類分析,并提取圖書館讀者借閱行為分析特征;然后,采用大數(shù)據(jù)分析技術——最小二乘支持向量機對圖書館讀者借閱行為變化特點進行擬合,構建圖書館讀者借閱行為分析模型;最后進行圖書館讀者借閱行為分析實例驗證。結果表明,大數(shù)據(jù)背景下的圖書館讀者借閱行為分析精度超過93%,而當前其他分析方法的精度均小于90%,同時,減少了圖書館讀者借閱行為分析時間,所提方法分析速度明顯加快,具有顯著的優(yōu)勢。

  關鍵詞: 借閱行為分析; 圖書館讀者; 聚類分析; 特點擬合; 分析模型構建; 實例驗證

大數(shù)據(jù)論文

  0 引 言

  圖書館是人們獲取知識的重要場所,其對高校的教學質量、科研起著重要的作用,全國各地的高校均建立了自己的圖書館管理系統(tǒng),大幅度提高了圖書館的管理水平,也減輕了圖書管理員的工作量[1?3]。圖書館管理系統(tǒng)經(jīng)過多年運營,積累了大量的歷史數(shù)據(jù),如圖書數(shù)據(jù)、讀者數(shù)據(jù)等,對這些數(shù)據(jù)進行深度挖掘,掌握讀者的借閱行為習慣和規(guī)律,可以為讀者提供更優(yōu)的服務,因此,對圖書館讀者的借閱行為進行研究,對于提高圖書館的管理水平具有十分重要的意義[4?5]。

  最初由于圖書館讀者借閱行為的歷史數(shù)據(jù)較少,通常采用人工方式對圖書館讀者借閱行為進行簡單的統(tǒng)計與分析,難以充分找到圖書館讀者借閱行為的規(guī)律,館藏資源利用率低[6]。隨著自動化技術、信息處理技術的不斷發(fā)展,出現(xiàn)了許多基于數(shù)據(jù)挖掘技術的圖書館讀者借閱行為分析方法[7],如基于時間序列分析法的圖書館讀者借閱行為分析方法[8],根據(jù)時間前后采集圖書館讀者借閱行為,但是其無法全面、客觀地描述圖書館讀者借閱行為變化特點,使得圖書館讀者借閱行為分析結果不可靠[9];基于關聯(lián)規(guī)則算法的圖書館讀者借閱行為分析方法,反映了圖書館讀者與借閱活動之間的聯(lián)系[10],但是其屬于線性分析技術,而圖書館讀者與借閱活動之間的聯(lián)系具有隨機性,即非線性,因此圖書館讀者借閱行為分析誤差大[11];有學者提出了基于流通日志的高校學生圖書借閱行為分析方法[12],從流量日志找到讀者圖書借閱行為變化規(guī)律,但是由于當前流通日志數(shù)據(jù)量相當大,其圖書館讀者借閱行為分析時間長,效率低[13?15]。

  為了更好地描述圖書館讀者借閱行為變化特點,獲得高精度的圖書館讀者借閱行為分析結果,提出大數(shù)據(jù)背景下的圖書館讀者借閱行為分析方法,并通過實例分析本文圖書館讀者借閱行為分析方法的有效性和優(yōu)越性。

  1 大數(shù)據(jù)背景下的圖書館讀者借閱行為分析方法

  1.1 聚類分析算法

  對于[n]個圖書館讀者借閱行為分析數(shù)據(jù)[X={x1,x2,…,xi,…,xn}],設有[k]個聚類,即有[k]個類別的圖書館讀者借閱行為,聚類分析算法的工作原理為:從[n]個圖書館讀者借閱行為數(shù)據(jù)中隨機選擇[k]個圖書館讀者借閱行為數(shù)據(jù)為初始聚類中心,其他圖書館讀者借閱行為數(shù)據(jù)根據(jù)其與聚類中心距離分別分配到最相似的類別中。

  1) [cj]表示第[j]類的圖書館讀者借閱行為類的中心,那么[xi]和[cj]的距離為:

  [d(xi,cj)=(xi1-cj1)2+(xi2-cj2)2+…+(xid-cjd)2] (1)

  [xi]和[cj]之間的相似度計算公式為:

  [s(xi,cj)=1d(xi,cj)] (2)

  2) 對所有聚類中心進行更新,第[j]個類別的圖書館讀者借閱行為分析樣本集合為[{xj1,xj2,…,xjnj}],相應聚類中心為[cj=(c1j,c2j,…,ckj,…,cdj)],[ckj]為[cj]的第[k]個屬性,具體如下:

  [ckj=xkj1+xkj2+…+xkjnjnj] (3)

  3) 不斷重復上述步驟,直到更新后的類中心和更新前一致為止,采用均方差作為測度標準,即:

  [J=i=1kj=1ni(xij-ci)2(n-1)] (4)

  通過上述步驟,就可以得到一個圖書館讀者借閱行為分析樣本的相似歷史樣本數(shù)量,不用選擇所有的圖書館讀者借閱行為歷史樣本進行建模,減少了圖書館讀者借閱行為分析樣本數(shù)量,可以提高圖書館讀者借閱行為分析效率。

  1.2 提取圖書館讀者借閱行為分析特征

  每個圖書館讀者借閱行為有自己的特征,可以根據(jù)這些特征來識別相應的圖書館讀者借閱行為。本文從3個方面提取讀者借閱行為特征:

  1) 讀者借閱圖書的月時間、周時間和時段;

  2) 讀者專業(yè)、讀者學歷、讀者的職業(yè)、讀者的年齡段;

  3) 讀者借閱書籍類型、讀者借閱書籍數(shù)量。

  1.3 圖書館讀者借閱行為分析算法

  由于圖書館讀者的數(shù)量大、借閱行為復雜多變,結合該特點,本文采用大數(shù)據(jù)分析技術——最小二乘支持向量機對圖書館讀者借閱行為變化特點進行擬合,構建圖書館讀者借閱行為分析模型。給定[M]個圖書館讀者借閱行為分析數(shù)據(jù)[{xi,yi}],[i=1,2,…,n],構造最優(yōu)圖書館讀者借閱行為分析數(shù)據(jù)決策函數(shù):

  [f(x)=wTφ(x)+b] (5)

  式中:[b]為偏置量;[w]為權值向量。

  根據(jù)現(xiàn)代統(tǒng)計學理論得到滿足式(5)的條件為:

  [yi-wTφ(x)+b≤εmin J=12wTw] (6)

  根據(jù)最小二乘支持向量機的工作原理將式(6)轉換為:

  [minw,b,eJ(w,e)=12wTw+12γi=1ne2is.t. yi=wTφ(xi)+b+ei] (7)

  式中[γ]表示控制誤差的懲罰程度。

  引入拉格朗日乘子法解決式(7),建立拉格朗日函數(shù):

  [L(w,b,e,α,γ)=12wTw+12γi=1ne2i-i=1nαi(wTφ(xi)-b+ei-yi)] (8)

  式中[αi]表示拉格朗日乘子。

  根據(jù)優(yōu)化條件[?L?w=0,?L?b=0,?L?ei=0,?L?αi=0],消除[w]和[e],定義核函數(shù)[K(xi,xj)=φT(xi)φ(xj)],得到圖書館讀者借閱行為分析模型為:

  [yi=i=1nαiK(xi,xj)+b ] (9)

  1.4 大數(shù)據(jù)背景下的圖書館讀者借閱行為分析原理

  推薦閱讀:大數(shù)據(jù)挖掘的論文投刊指導

主站蜘蛛池模板: 丰宁| 洛浦县| 建德市| 会同县| 响水县| 罗江县| 迁安市| 南通市| 九龙县| 青川县| 邵东县| 张家港市| 洛宁县| 海南省| 北碚区| 宽城| 建阳市| 五华县| 贺州市| 石台县| 岳普湖县| 舟曲县| 抚远县| 报价| 小金县| 延津县| 新宁县| 阳曲县| 金昌市| 南溪县| 独山县| 丹阳市| 邳州市| 茶陵县| 三明市| 新田县| 遵化市| 固镇县| 库伦旗| 吉安市| 石屏县|