2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

基于標(biāo)簽遷移和深度學(xué)習(xí)的跨語(yǔ)言實(shí)體抽取研究

來(lái)源:期刊VIP網(wǎng)所屬分類:漢語(yǔ)言時(shí)間:瀏覽:

  基金項(xiàng)目:國(guó)家自然科學(xué)基金面上項(xiàng)目“面向跨語(yǔ)言觀點(diǎn)摘要的領(lǐng)域知識(shí)表示與融合模型研究”(項(xiàng)目編號(hào):71974202)。

  作者:余傳明

  摘 要:[目的/意義]從跨語(yǔ)言視角探究如何更好地解決低資源語(yǔ)言的實(shí)體抽取問(wèn)題。[方法/過(guò)程]以英語(yǔ)為源語(yǔ)言,西班牙語(yǔ)和荷蘭語(yǔ)為目標(biāo)語(yǔ)言,借助遷移學(xué)習(xí)和深度學(xué)習(xí)的思想,提出一種結(jié)合自學(xué)習(xí)和GRU-LSTM-CRF網(wǎng)絡(luò)的無(wú)監(jiān)督跨語(yǔ)言實(shí)體抽取方法。[結(jié)果/結(jié)論]與有監(jiān)督的跨語(yǔ)言實(shí)體抽取方法相比,本文提出的無(wú)監(jiān)督跨語(yǔ)言實(shí)體抽取方法可以取得更好的效果,在西班牙語(yǔ)上,F(xiàn)1值為0.6419,在荷蘭語(yǔ)上,F(xiàn)1值為0.6557。利用跨語(yǔ)言知識(shí)在源語(yǔ)言和目標(biāo)語(yǔ)言間建立橋梁,提升低資源語(yǔ)言實(shí)體抽取的效果。

  關(guān)鍵詞:知識(shí)獲取;實(shí)體抽取;跨語(yǔ)言;深度學(xué)習(xí);標(biāo)簽映射

語(yǔ)言教育

  實(shí)體抽取(Entity Extraction,EE),又稱為命名實(shí)體識(shí)別(Name Entity Recognition,NER),是指識(shí)別文本中具有特定意義的實(shí)體[1],包括人名[2]、地名[3]、機(jī)構(gòu)名[4]和專有名詞[5-7]等。實(shí)體抽取在信息抽取的總體任務(wù)中起著至關(guān)重要的作用,有效識(shí)別命名實(shí)體,不僅是關(guān)系抽取[8-9]和構(gòu)建知識(shí)圖譜[10]的基礎(chǔ),而且可以顯著提高問(wèn)答系統(tǒng)[11]和文本挖掘[12]等應(yīng)用的性能。隨著大數(shù)據(jù)的迅速發(fā)展,各種語(yǔ)料在不同語(yǔ)言中的分散化和多樣化日益嚴(yán)峻,跨語(yǔ)言情境下的實(shí)體抽取任務(wù)受到越來(lái)越多的關(guān)注。實(shí)體抽取任務(wù)在中文和英文等語(yǔ)言情境中,存在較為豐富的標(biāo)注語(yǔ)料,與此相關(guān)的實(shí)體抽取模型相對(duì)簡(jiǎn)單;而在阿拉伯語(yǔ)和維吾爾語(yǔ)等語(yǔ)言情境中,標(biāo)注語(yǔ)料相對(duì)稀缺,存在標(biāo)簽語(yǔ)料很少和手工標(biāo)注標(biāo)簽昂貴且費(fèi)時(shí)等問(wèn)題,與此相關(guān)的實(shí)體抽取模型相對(duì)復(fù)雜,面臨更多挑戰(zhàn)。在標(biāo)注語(yǔ)料豐富的源語(yǔ)言和標(biāo)注語(yǔ)料稀缺的目標(biāo)語(yǔ)言之間建立橋梁,將源語(yǔ)言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語(yǔ)言,以豐富目標(biāo)語(yǔ)言的標(biāo)簽數(shù)據(jù),通過(guò)建立跨語(yǔ)言的命名實(shí)體識(shí)別模型,提升低資源語(yǔ)言實(shí)體識(shí)別模型的效果,成為一個(gè)亟待解決的研究問(wèn)題。

  機(jī)器翻譯研究的發(fā)展在一定程度上緩解了目標(biāo)語(yǔ)言語(yǔ)料稀缺的問(wèn)題,但采用機(jī)器翻譯來(lái)解決跨語(yǔ)言實(shí)體抽取仍面臨一些挑戰(zhàn)。首先,在源語(yǔ)言翻譯成目標(biāo)語(yǔ)言的過(guò)程中,即便在機(jī)器翻譯達(dá)到很高準(zhǔn)確率(即源語(yǔ)言文本與目標(biāo)語(yǔ)言文本具有很好的語(yǔ)義一致性)的情況下,由于在目標(biāo)語(yǔ)言中詞匯語(yǔ)序被調(diào)整,且存在對(duì)源語(yǔ)言詞匯進(jìn)行拆分(源語(yǔ)言詞匯與目標(biāo)語(yǔ)言詞匯之間為一對(duì)多的關(guān)系)或合并(源語(yǔ)言詞匯與目標(biāo)語(yǔ)言詞匯之間為多對(duì)一的關(guān)系)的情況,很難準(zhǔn)確地建立詞匯標(biāo)簽(如B、I、O等)從源語(yǔ)言到目標(biāo)語(yǔ)言之間的一一對(duì)應(yīng)關(guān)系,如何在機(jī)器翻譯基礎(chǔ)上自動(dòng)化地構(gòu)建目標(biāo)語(yǔ)言的語(yǔ)料標(biāo)簽仍然是一個(gè)嚴(yán)峻的問(wèn)題。其次,目前應(yīng)用較為廣泛的免費(fèi)在線翻譯系統(tǒng)(如谷歌和百度翻譯等)并不支持所有語(yǔ)言,針對(duì)稀缺資源語(yǔ)種(如蒙古語(yǔ)和維吾爾語(yǔ)等),如何在沒(méi)有機(jī)器翻譯的情況下自動(dòng)化地構(gòu)建目標(biāo)語(yǔ)言的文本(并在此基礎(chǔ)上自動(dòng)化地構(gòu)建標(biāo)簽)也是一大挑戰(zhàn)。

  為解決上述問(wèn)題,本文將自動(dòng)化的雙語(yǔ)詞典構(gòu)建應(yīng)用到跨語(yǔ)言實(shí)體抽取任務(wù)中,利用遷移學(xué)習(xí)和深度學(xué)習(xí)的思想,開展跨語(yǔ)言實(shí)體抽取的實(shí)證研究。

  1 相關(guān)研究現(xiàn)狀

  1.1 實(shí)體抽取的傳統(tǒng)模型

  實(shí)體抽取的傳統(tǒng)模型包括早期基于規(guī)則的方法、統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法以及近年來(lái)基于深度學(xué)習(xí)的方法,其效果不斷得以提升。

  1.1.1 基于規(guī)則的實(shí)體抽取

  基于規(guī)則的實(shí)體抽取方法是指人工構(gòu)造規(guī)則或者借助機(jī)器自動(dòng)生成規(guī)則,然后從文本中找出匹配規(guī)則的字符串。為了解決烏爾都語(yǔ)實(shí)體標(biāo)注語(yǔ)料稀缺的問(wèn)題,Riaz K[13]提出一種基于規(guī)則的命名實(shí)體識(shí)別方法,首先從Becker-Riaz語(yǔ)料庫(kù)中選取200篇文檔,人工為時(shí)間、地名、機(jī)構(gòu)名等6個(gè)實(shí)體標(biāo)簽制定規(guī)則;并選出2 262篇文檔進(jìn)行實(shí)驗(yàn),該方法的召回率為90.7%,準(zhǔn)確率為91.5%,F(xiàn)1值為91.1%。由于人工構(gòu)造規(guī)則需要消耗較多的人力和物力,所以研究者們嘗試借助機(jī)器自動(dòng)生成規(guī)則的方法。Collins M等[14]先構(gòu)造種子規(guī)則,再根據(jù)語(yǔ)料對(duì)該種子規(guī)則進(jìn)行無(wú)監(jiān)督的訓(xùn)練迭代得到更多的規(guī)則,將這些規(guī)則用于實(shí)體抽取,該方法在人名、地名和機(jī)構(gòu)名3種實(shí)體抽取任務(wù)中取得很好的效果。周昆[15]提出一種基于規(guī)則匹配的命名實(shí)體識(shí)別方法,首先,將中文人名、知識(shí)按照不同類別和不同層次進(jìn)行組織,可提高知識(shí)庫(kù)的可維護(hù)性;然后分別制定20種人名識(shí)別規(guī)則和9種地名識(shí)別規(guī)則;最后構(gòu)建具有自主學(xué)習(xí)能力的實(shí)體識(shí)別系統(tǒng),能在識(shí)別實(shí)體的基礎(chǔ)上,產(chǎn)生新的規(guī)則反饋給規(guī)則庫(kù),該方法有效提高了實(shí)體抽取的準(zhǔn)確率和召回率。基于規(guī)則的實(shí)體抽取方法在小規(guī)模語(yǔ)料庫(kù)上,訓(xùn)練速度快且模型效果好,但需要制定大量的規(guī)則,導(dǎo)致該類方法的可移植性較差。

  1.1.2 基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的實(shí)體抽取

  在基于統(tǒng)計(jì)機(jī)器的方法中,實(shí)體抽取被視為序列標(biāo)注問(wèn)題。序列標(biāo)注問(wèn)題中當(dāng)前的預(yù)測(cè)標(biāo)簽不僅與當(dāng)前的輸入特征相關(guān),還與之前的預(yù)測(cè)標(biāo)簽相關(guān),預(yù)測(cè)標(biāo)簽序列之間具有強(qiáng)相互依賴關(guān)系。目前常用的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法有:隱馬爾克夫模型(HMM)、最大熵隱馬模型(MEMM)、條件隨機(jī)場(chǎng)模型(CRF)等。CRF是計(jì)算整個(gè)標(biāo)記序列的聯(lián)合分布概率,在全局范圍內(nèi)進(jìn)行歸一化處理,不僅克服HMM輸出的獨(dú)立性假設(shè)問(wèn)題,而且有效避免了MEMM的標(biāo)記偏置問(wèn)題。如馮艷紅等[16]提出一種基于詞向量和條件隨機(jī)場(chǎng)的領(lǐng)域術(shù)語(yǔ)識(shí)別方法,將領(lǐng)域詞語(yǔ)的語(yǔ)義特征和領(lǐng)域特征融入CRF模型中,在漁業(yè)領(lǐng)域語(yǔ)料、通用語(yǔ)料和混合語(yǔ)料上進(jìn)行實(shí)驗(yàn),該方法均取得較好效果。李想等[17]將農(nóng)作物、病蟲害和農(nóng)藥名稱的詞性、偏旁部首、左右指界詞、附近數(shù)量詞等特征融入CRF模型,建立特征與命名實(shí)體類別和詞位間的關(guān)聯(lián)關(guān)系,從而識(shí)別出命名實(shí)體,對(duì)農(nóng)作物、病蟲害、農(nóng)藥命名實(shí)體識(shí)別的準(zhǔn)確度分別達(dá)97.72%、87.63%、98.05%?;诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的實(shí)體抽取獲得了較好的結(jié)果,但是該方法需要人工選擇的特征作為模型輸入,實(shí)體抽取的效果嚴(yán)重依賴特征選取,且模型的泛化能力不強(qiáng)。

  1.1.3 基于深度學(xué)習(xí)的實(shí)體抽取

  深度學(xué)習(xí)技術(shù)成為研究命名實(shí)體識(shí)別問(wèn)題的熱點(diǎn)方法,能夠有效地解決人工選擇特征的不足和高維向量空間帶來(lái)的數(shù)據(jù)稀疏問(wèn)題。近年來(lái),基于深度學(xué)習(xí)的實(shí)體抽取主要思路是,首先采用字粒度、詞粒度或者混合粒度將文本進(jìn)行向量表示,然后用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)等網(wǎng)絡(luò)進(jìn)行文本的語(yǔ)言特征提取,最后用條件隨機(jī)場(chǎng)(CRF)輸出最優(yōu)標(biāo)簽序列。如Huang Z等[18]首次提出融合LSTM和CRF的端到端的命名實(shí)體識(shí)別模型,與基線方法相比,該方法具有較強(qiáng)的魯棒性,對(duì)詞語(yǔ)特征工程的依賴性較小。在此基礎(chǔ)上,Lample G等[19]提出兩種命名實(shí)體識(shí)別模型:一種是基于雙向LSTM和CRF的命名實(shí)體識(shí)別模型,一種是基于轉(zhuǎn)移的命名實(shí)體識(shí)別模型,在沒(méi)有人工處理特征和地名錄的前提下,英語(yǔ)、荷蘭語(yǔ)、德語(yǔ)和西班牙語(yǔ)數(shù)據(jù)集上均取得較好的結(jié)果。Zhang Y等[20]提出基于Lattice LSTM的中文命名實(shí)體識(shí)別模型,該模型對(duì)輸入字符序列和所有匹配詞典的潛在詞匯進(jìn)行編碼。與基于字符的方法相比,該模型顯性地利用詞和詞序信息,與基于詞的方法相比,Lattice LSTM不會(huì)出現(xiàn)分詞錯(cuò)誤。在多個(gè)數(shù)據(jù)集上證明Lattice LSTM方法優(yōu)于基于詞和基于字符的LSTM命名實(shí)體識(shí)別方法。目前,大部分神經(jīng)網(wǎng)絡(luò)都是使用Word2Vec和Glove工具訓(xùn)練詞向量,所得到的詞向量沒(méi)有考慮詞序?qū)υ~義的影響,Google在2018年10月發(fā)布BERT語(yǔ)言表示模型,在各項(xiàng)自然語(yǔ)言處理任務(wù)中都取得了最先進(jìn)的結(jié)果。王子牛等[21]提出基于BERT的中文命名實(shí)體方法,首先用BERT訓(xùn)練大量未標(biāo)注語(yǔ)料,得到抽象的語(yǔ)義特征,然后結(jié)合LSTM-CRF神經(jīng)網(wǎng)絡(luò),該方法在《人民日?qǐng)?bào)》數(shù)據(jù)集上的F1值達(dá)到94.86%。此外,深度學(xué)習(xí)方法還被廣泛應(yīng)用于歷史事件名抽取[22]、電子病歷實(shí)體抽取[23]、商業(yè)領(lǐng)域?qū)嶓w抽取[24]、在線醫(yī)療實(shí)體抽取[25]等應(yīng)用場(chǎng)景。值得說(shuō)明的是,基于深度學(xué)習(xí)的實(shí)體抽取方法,在英語(yǔ)和中文等高資源語(yǔ)言中取得很好的效果;對(duì)于維吾爾語(yǔ)、蒙古語(yǔ)等低資源語(yǔ)言,實(shí)體抽取的效果有待提高。

  推薦閱讀:小語(yǔ)種語(yǔ)言研究論文怎么發(fā)表

主站蜘蛛池模板: 贞丰县| 泾源县| 青冈县| 沿河| 洮南市| 包头市| 彭阳县| 花莲市| 玉树县| 万全县| 广饶县| 拉孜县| 景德镇市| 邯郸市| 吉林市| 莱西市| 许昌县| 方山县| 武山县| 嘉峪关市| 利川市| 千阳县| 大城县| 淮滨县| 英吉沙县| 清水县| 合作市| 玉屏| 浦北县| 鄄城县| 来安县| 汉中市| 虹口区| 姚安县| 太和县| 略阳县| 西盟| 宜宾市| 班玛县| 大城县| 酉阳|