期刊VIP學術指導 符合學術規范和道德
保障品質 保證專業,沒有后顧之憂
摘 要:在線挖掘可比語料是構建大規模可比語料庫的可行途徑之一,在線可比度計算是語料挖掘過程中的關鍵環節。本文提出一種融合詞匯重合度和主題模型的在線可比度計算方式,主題模型選擇能夠進行在線學習的Online LDA,利用詞對齊工具GIZA++進行主題映射,融合方式為加權求和。在下載的中英新聞語料上的測試結果表明,兩種計算方式融合后的準確性比兩種都要高。
關鍵詞:可比語料庫;可比度;主題模型;主題映射
《市場與電腦》是由國內貿易局技術開發中心中國計算機用戶協會MO分會主辦、CCID北京天利電子出版技術公司編輯出版,中國流通領域信息化主導刊物,帶給讀者最新的電腦業界動態。
0 引 言
可比語料庫是雙語語料庫的一種,在機器翻譯、跨語言信息檢索、雙語詞典編撰等領域有著廣泛的應用。如何構建高質量、大規模的可比語料庫一直是研究的熱點問題。Web擁有海量的文本信息,而且在持續更新。從Web挖掘可比語料是目前構建可比語料庫的重要途徑。文獻[1]從新聞網站下載不同語言的新聞文本,進而生成可比語料;文獻[2]從維基百科抽取可比語料;文獻[3]嘗試從社交網站Twitter中挖掘可比語料。這些文獻構建可比語料庫時將所需語料全部下載完成后,離線進行語料對齊,得到可比語料。這種構建方式難以構建大規模的語料庫。解決這個問題的有效途徑就是在線持續挖掘可比語料,語料下載與語料對齊同時進行。
構建可比語料庫非常關鍵的問題就是在語料對齊階段如何衡量兩種語言文本之間的相似性(即可比度)。常用的方法有:(1)基于跨語言信息檢索,即從源語言文檔抽取關鍵詞,翻譯為目標語言,然后在目標語言文檔中進行檢索,根據檢索的結果確定源語言文檔與目標語言文檔之間的相似性;(2)基于詞匯重合度,即把文檔當作詞袋,將源語言文檔詞匯在目標語言文檔中能找到對應翻譯的比例,視為源語言文檔與目標語言文檔之間的相似性。
以LDA為典型代表的主題模型能夠發現文檔的隱含主題,對文本進行語義挖掘。不少研究者將主題模型應用于可比度的計算,取得了不錯的效果。
文獻[4]先利用源語言文檔集訓練得到源語言主題模型,然后通過翻譯引擎將模型翻譯為目標語言主題模型,將源語言文檔和目標語言文檔分別輸入這兩個模型中得到兩篇文檔的文檔主題分布,通過計算這兩個分布的余弦相似度來判斷對應文檔的相似性。文獻[5]引入Bi-LDA,利用主題相同的可比語料進行訓練,從而建立主題模型,然后通過KL散度、余弦相似度和條件概率相似度來計算待匹配文檔的主題相似性。文獻[6]利用主題相同的阿拉伯語和英語新聞語料分別訓練兩個LDA,通過主題映射,建立兩個LDA主題集之間的關系,在此基礎上抽取主題相關的特征,同時配合語義特征(標題、關鍵詞、首句及次句相似度)訓練SVM分類器判斷待匹配新聞文檔是否主題相關。
如前所述,在線挖掘可比語料是構建大規模語料庫的有效途徑。對于語料類型,從更新的速度,以及獲取的難易程度來看,新聞是最適合的。同樣,在線可比度計算也是關鍵步驟。本文針對中英新聞,借鑒文獻[6]中主題映射的思想,將主題模型應用于在線可比度計算,提出融合主題模型的在線可比度計算方法,該方法由基本的計算方式和基于主題模型的計算方式兩種方法融合而成。在線可比度計算方式需要滿足計算速度快、所需資源少的要求,前面提到的基于跨語言信息檢索和基于詞匯重合度的可比度計算方式均滿足該要求。從計算復雜性的角度來說,本文選擇后者作為基本計算方式。對于基于主題模型的在線可比度計算方式,鑒于傳統的基于吉布斯抽樣算法的LDA訓練速度慢的特性,本文選擇速度更快的基于變分推斷的Online LDA。Online LDA采用增量學習的方式,不僅學習速度快,而且當模型運行一段時間后需要補充新的訓練材料時,能夠僅針對補充材料進行訓練,而不是全部重新訓練,特別適合在線應用。融合方式采取按比例相加的方式,具體比例通過實驗選取。
1 融合主題模型的在線可比度計算方法
融合主題模型的在線可比度計算過程主要分為兩個階段:(1)準備階段;(2)在線可比度計算及融合階段。這兩個階段又分為若干個步驟,其中Online LDA的訓練、主題映射表的生成以及可比度的融合是關鍵步驟。融合主題模型的在線可比度計算過程如圖1所示。
1.1 Online LDA訓練及主題映射表的生成
根據文獻[6],能夠進行主題映射的前提條件是訓練用的雙語語料必須是平行語料或者篇章對齊的具有相同話題的語料。這樣的語料一般難以獲得。本文嘗試借助在線翻譯引擎構造“近似”平行語料。構造方式有兩種,即將英文新聞翻譯為中文,或者將中文翻譯為英文。經過分析,本文選擇將英文新聞翻譯為中文,因為所獲取的英文語料主要來自國家權威媒體《環球時報(英文版)》,行文簡潔,語法規范,有利于翻譯引擎進行翻譯。本文選擇“有道在線翻譯”作為翻譯引擎。Online LDA訓練及主題映射表生成過程如圖2所示。
Online LDA通過在小批量數據上迭代采樣實現在線變分推斷,即無須一次性提供全部訓練集,可以分批漸進訓練,適合在線學習和大數據集應用場景。其變分推斷算法如下:
本文采用兩個獨立的Online LDA,分別針對近似平行語料庫中的英文新聞語料和翻譯得到的中文新聞語料進行訓練。訓練結束后,參考文獻[6]中的方法,用詞對齊軟件GIZA++進行主題映射。該方法的基本思想是如果訓練語料主題相同,LDA訓練結束后可以確定各個文檔的主題分布,如果把主題看作詞,則可以認為訓練語料是以主題為詞的平行語料,通過GIZA++就可以得到主題之間的翻譯關系,即主題之間的映射表,其結構如表1所示。
1.2 在線可比度計算及融合
1.2.1 候選新聞對的生成和常規文本處理
新聞具有很強的時效性,不同語言關于同一事件的報道一般會集中在一個時間段內,這就意味著可以把可比新聞對的搜索限定在有限的時間范圍內,這樣可以大大縮小候選新聞對的規模,更重要的是有利于在線構建可比新聞語料,即待一定時間范圍(即時間窗口)內的語料下載完畢后即可開始文本處理、可比度計算和對齊工作。候選新聞對的生成和常規文本處理的過程如圖3所示。
1.2.2 基于詞匯重合度的在線可比度計算
基于詞匯重合度的在線可比度計算過程如圖4所示。
計算過程需要雙語詞典的支持。相比本地詞典,在線詞典具有規模大、更新及時的特點。本文選擇有道在線詞典,根據文獻[2]和文獻[3],得出基于詞匯重合度的可比度計算公式如下:
1.2.3 基于Online LDA的在線可比度計算
基于Online LDA的在線可比度計算過程如圖5所示。
將候選新聞對中的英文新聞和中文新聞分別送入準備階段已訓練好的兩個Online LDA中,推斷得出各自的主題分布,然后利用主題映射表將英文新聞主題分布映射為中文新聞主題分布,然后求兩個中文主題分布的余弦相似度,得到候選新聞度的相似度,即可比度。
1.2.4 兩種在線可比度的融合
將兩種在線可比度進行融合得到最終的在線可比度。可比度的融合采取賦權相加的方式。各自的權值通過試驗選取。
2 實驗設置
2.1 數據集
本文所使用的數據集采用爬蟲下載,其中英文新聞來自《環球時報(英文版)》,中文新聞來自鳳凰網,數據集分為訓練集和測試集,具體信息如表2和表3所示。
對新聞的文本處理包括分詞和去停用詞。對于中文新聞和英文新聞分別采用中科院分詞軟件NLPIR和斯坦福大學的自然語言處理工具包CoreNLP進行分詞,然后去停用詞。
2.2 參數設置
在Online LDA訓練階段,需要設置的主要參數有主題個數K,小批量樣本數量S,輔助參數κ、τ0的選取。S、κ、τ0選取Python機器學習包sklearn中給定的默認值,分別為128、0.7和10。參考文獻[6]并經過測試可知,主題個數K=40比較合適。
在候選文本對生成階段,需要設置的參數是時間窗口K,參考文獻[7]將其設置為1,即對于源語言新聞文本,將前一天,同一天及后一天的目標語言新聞文本作為候選的可比新聞。
2.3 實驗結果及分析
Python機器學習包sklearn實現了Online LDA的學習算法,但必須一次性提供所有訓練文本,不能實現真正意義上的在線學習,另外也不能在已訓練的模型上追加訓練樣本進行補充訓練。
本文采用文獻[8]所提供的程序,該程序能夠從維基百科上下載頁面文本,邊下載邊訓練,也能夠中止訓練,保存訓練模型,再重啟繼續訓練,實現真正意義上的在線學習。將該程序中維基頁面文本換成新聞訓練集就能實現本文需要的在線訓練。訓練完成后,使用GIZA++得到主題映射表。
在測試集上,分別用基于詞匯重合度的在線可比度計算方式和基于Online LDA的在線可比度計算方式計算可比度。對于測試集中每篇英文新聞,選取可比度最高的中文新聞組成可比新聞對,然后隨機抽取200對進行人工判斷,判斷其是否主題相同或者相關,以估算兩種在線可比度計算方式的準確性,結果如表4所示。
從表4可以看出,基于詞匯重合度計算方式的準確度要高于基于Online LDA的計算方式,相比文獻[6]的結果,高出的幅度要大一些,這可能與Online LDA訓練集規模不夠有關。
將兩種計算方式按比例進行融合:comparabilitytotal=k×comparabilityoverlap+(1-k)×comparabilityonlineLDA