期刊VIP學術指導 符合學術規范和道德
保障品質 保證專業,沒有后顧之憂
基金項目:國家自然科學基金面上項目“面向跨語言觀點摘要的領域知識表示與融合模型研究”(項目編號:71974202)。
作者:余傳明
摘 要:[目的/意義]從跨語言視角探究如何更好地解決低資源語言的實體抽取問題。[方法/過程]以英語為源語言,西班牙語和荷蘭語為目標語言,借助遷移學習和深度學習的思想,提出一種結合自學習和GRU-LSTM-CRF網絡的無監督跨語言實體抽取方法。[結果/結論]與有監督的跨語言實體抽取方法相比,本文提出的無監督跨語言實體抽取方法可以取得更好的效果,在西班牙語上,F1值為0.6419,在荷蘭語上,F1值為0.6557。利用跨語言知識在源語言和目標語言間建立橋梁,提升低資源語言實體抽取的效果。
關鍵詞:知識獲取;實體抽取;跨語言;深度學習;標簽映射
實體抽取(Entity Extraction,EE),又稱為命名實體識別(Name Entity Recognition,NER),是指識別文本中具有特定意義的實體[1],包括人名[2]、地名[3]、機構名[4]和專有名詞[5-7]等。實體抽取在信息抽取的總體任務中起著至關重要的作用,有效識別命名實體,不僅是關系抽取[8-9]和構建知識圖譜[10]的基礎,而且可以顯著提高問答系統[11]和文本挖掘[12]等應用的性能。隨著大數據的迅速發展,各種語料在不同語言中的分散化和多樣化日益嚴峻,跨語言情境下的實體抽取任務受到越來越多的關注。實體抽取任務在中文和英文等語言情境中,存在較為豐富的標注語料,與此相關的實體抽取模型相對簡單;而在阿拉伯語和維吾爾語等語言情境中,標注語料相對稀缺,存在標簽語料很少和手工標注標簽昂貴且費時等問題,與此相關的實體抽取模型相對復雜,面臨更多挑戰。在標注語料豐富的源語言和標注語料稀缺的目標語言之間建立橋梁,將源語言的標簽數據遷移給目標語言,以豐富目標語言的標簽數據,通過建立跨語言的命名實體識別模型,提升低資源語言實體識別模型的效果,成為一個亟待解決的研究問題。
機器翻譯研究的發展在一定程度上緩解了目標語言語料稀缺的問題,但采用機器翻譯來解決跨語言實體抽取仍面臨一些挑戰。首先,在源語言翻譯成目標語言的過程中,即便在機器翻譯達到很高準確率(即源語言文本與目標語言文本具有很好的語義一致性)的情況下,由于在目標語言中詞匯語序被調整,且存在對源語言詞匯進行拆分(源語言詞匯與目標語言詞匯之間為一對多的關系)或合并(源語言詞匯與目標語言詞匯之間為多對一的關系)的情況,很難準確地建立詞匯標簽(如B、I、O等)從源語言到目標語言之間的一一對應關系,如何在機器翻譯基礎上自動化地構建目標語言的語料標簽仍然是一個嚴峻的問題。其次,目前應用較為廣泛的免費在線翻譯系統(如谷歌和百度翻譯等)并不支持所有語言,針對稀缺資源語種(如蒙古語和維吾爾語等),如何在沒有機器翻譯的情況下自動化地構建目標語言的文本(并在此基礎上自動化地構建標簽)也是一大挑戰。
為解決上述問題,本文將自動化的雙語詞典構建應用到跨語言實體抽取任務中,利用遷移學習和深度學習的思想,開展跨語言實體抽取的實證研究。
1 相關研究現狀
1.1 實體抽取的傳統模型
實體抽取的傳統模型包括早期基于規則的方法、統計機器學習的方法以及近年來基于深度學習的方法,其效果不斷得以提升。
1.1.1 基于規則的實體抽取
基于規則的實體抽取方法是指人工構造規則或者借助機器自動生成規則,然后從文本中找出匹配規則的字符串。為了解決烏爾都語實體標注語料稀缺的問題,Riaz K[13]提出一種基于規則的命名實體識別方法,首先從Becker-Riaz語料庫中選取200篇文檔,人工為時間、地名、機構名等6個實體標簽制定規則;并選出2 262篇文檔進行實驗,該方法的召回率為90.7%,準確率為91.5%,F1值為91.1%。由于人工構造規則需要消耗較多的人力和物力,所以研究者們嘗試借助機器自動生成規則的方法。Collins M等[14]先構造種子規則,再根據語料對該種子規則進行無監督的訓練迭代得到更多的規則,將這些規則用于實體抽取,該方法在人名、地名和機構名3種實體抽取任務中取得很好的效果。周昆[15]提出一種基于規則匹配的命名實體識別方法,首先,將中文人名、知識按照不同類別和不同層次進行組織,可提高知識庫的可維護性;然后分別制定20種人名識別規則和9種地名識別規則;最后構建具有自主學習能力的實體識別系統,能在識別實體的基礎上,產生新的規則反饋給規則庫,該方法有效提高了實體抽取的準確率和召回率。基于規則的實體抽取方法在小規模語料庫上,訓練速度快且模型效果好,但需要制定大量的規則,導致該類方法的可移植性較差。
1.1.2 基于統計機器學習的實體抽取
在基于統計機器的方法中,實體抽取被視為序列標注問題。序列標注問題中當前的預測標簽不僅與當前的輸入特征相關,還與之前的預測標簽相關,預測標簽序列之間具有強相互依賴關系。目前常用的統計機器學習方法有:隱馬爾克夫模型(HMM)、最大熵隱馬模型(MEMM)、條件隨機場模型(CRF)等。CRF是計算整個標記序列的聯合分布概率,在全局范圍內進行歸一化處理,不僅克服HMM輸出的獨立性假設問題,而且有效避免了MEMM的標記偏置問題。如馮艷紅等[16]提出一種基于詞向量和條件隨機場的領域術語識別方法,將領域詞語的語義特征和領域特征融入CRF模型中,在漁業領域語料、通用語料和混合語料上進行實驗,該方法均取得較好效果。李想等[17]將農作物、病蟲害和農藥名稱的詞性、偏旁部首、左右指界詞、附近數量詞等特征融入CRF模型,建立特征與命名實體類別和詞位間的關聯關系,從而識別出命名實體,對農作物、病蟲害、農藥命名實體識別的準確度分別達97.72%、87.63%、98.05%。基于統計機器學習的實體抽取獲得了較好的結果,但是該方法需要人工選擇的特征作為模型輸入,實體抽取的效果嚴重依賴特征選取,且模型的泛化能力不強。
1.1.3 基于深度學習的實體抽取
深度學習技術成為研究命名實體識別問題的熱點方法,能夠有效地解決人工選擇特征的不足和高維向量空間帶來的數據稀疏問題。近年來,基于深度學習的實體抽取主要思路是,首先采用字粒度、詞粒度或者混合粒度將文本進行向量表示,然后用長短期記憶網絡(LSTM)、循環神經網絡(RNN)和卷積神經網絡(CNN)等網絡進行文本的語言特征提取,最后用條件隨機場(CRF)輸出最優標簽序列。如Huang Z等[18]首次提出融合LSTM和CRF的端到端的命名實體識別模型,與基線方法相比,該方法具有較強的魯棒性,對詞語特征工程的依賴性較小。在此基礎上,Lample G等[19]提出兩種命名實體識別模型:一種是基于雙向LSTM和CRF的命名實體識別模型,一種是基于轉移的命名實體識別模型,在沒有人工處理特征和地名錄的前提下,英語、荷蘭語、德語和西班牙語數據集上均取得較好的結果。Zhang Y等[20]提出基于Lattice LSTM的中文命名實體識別模型,該模型對輸入字符序列和所有匹配詞典的潛在詞匯進行編碼。與基于字符的方法相比,該模型顯性地利用詞和詞序信息,與基于詞的方法相比,Lattice LSTM不會出現分詞錯誤。在多個數據集上證明Lattice LSTM方法優于基于詞和基于字符的LSTM命名實體識別方法。目前,大部分神經網絡都是使用Word2Vec和Glove工具訓練詞向量,所得到的詞向量沒有考慮詞序對詞義的影響,Google在2018年10月發布BERT語言表示模型,在各項自然語言處理任務中都取得了最先進的結果。王子牛等[21]提出基于BERT的中文命名實體方法,首先用BERT訓練大量未標注語料,得到抽象的語義特征,然后結合LSTM-CRF神經網絡,該方法在《人民日報》數據集上的F1值達到94.86%。此外,深度學習方法還被廣泛應用于歷史事件名抽取[22]、電子病歷實體抽取[23]、商業領域實體抽取[24]、在線醫療實體抽取[25]等應用場景。值得說明的是,基于深度學習的實體抽取方法,在英語和中文等高資源語言中取得很好的效果;對于維吾爾語、蒙古語等低資源語言,實體抽取的效果有待提高。
推薦閱讀:小語種語言研究論文怎么發表