2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

犯罪行為演化圖譜的自動構建方法研究

來源:期刊VIP網所屬分類:軟件開發時間:瀏覽:

  摘 要:隨著國家司法信息化建設的推進,促進司法公平正義、提高司法審判工作效率成為必然的趨勢。本文將事件圖譜的構建方法引入司法領域,將裁判文書案情描述中的犯罪行為視為節點,犯罪行為間的邏輯關系視為邊,構建了一種犯罪行為演化圖譜,以此來將案情中孤立的犯罪行為利用邏輯關系連接起來,從而描述案情的發展過程而不是獨立的要素,最大限度地保留了案情的語義信息。本文提出的自動構建方法在五個案由中的抽取結果比傳統方法平均提高了7.8%,此方法構建的犯罪行為演化圖譜可為法律從業人員研究案情提供參考,同時為推進智慧法院建設如罪名預測、類案推薦等提供了新的思路與方法。

  關鍵詞:犯罪行為;關系識別;犯罪行為鏈;犯罪行為演化圖譜

  1 引言(Introduction)

  裁判文書是我國司法案件的一種載體,根據內容大致分為案件信息、案情描述、判決要素及審判結果四個部分,如圖1所示。法律從業人員在研究過往案件裁判文書的過程中往往需要獲取案情的發展脈絡,以此來為當前案件提供論據。在過去的知識圖譜分析方法中,人們往往只關注裁判文書中獨立的案情要素,忽略了犯罪行為之間存在的邏輯與規律[1-2]。在能夠描述事件發展和演化的事件演化圖譜[3](Event Evolutionary Graph, EEG)的啟發下,本文提出了一種全新的案情結構化表示方法——犯罪行為演化圖譜(Criminal Act Evolutionary Graph),將犯罪行為視為事件(Event),而犯罪行為之間的演化關系則可以用事件間的時序、因果等關系(Relation)來描述,故犯罪行為演化圖譜的構建方法可以表述為:構建一個能夠利用事件之間的時序及因果等關系來描述事件演化規律的有向無環圖。在以圖結構描述案情的過程中,如何在清晰明確地描述案情發展及其演化過程的同時盡可能地保留上下文語義信息是本工作的一大難點。

  2 背景及相關工作(Background and related work)

  近年來,國內外學者普遍認為計算機技術對法律行業產生了重大的影響[4],我國在司法信息化建設過程中取得了不錯的進展,并積累了相當多的經驗。目前智能司法領域的相關工作主要集中在通過裁判文書、證詞、庭審記錄等司法大數據,利用大數據與人工智能技術達成輔助審判的應用[5],同時在罪名預測、法條推薦、刑期預測、類案推薦及司法知識圖譜等應用[6]上取得了令人矚目的成果,但這些工作還只停留在對案情要素的應用上,沒有對案情的發展和演化進行深入研究。

  在過去對案情的分析方法中,常采用知識圖譜的方法來表示裁判文書中包含的半結構化信息[7],但這種方法通常只關注實體及關系等靜態要素,難以獲得案情部分具有序列特征的犯罪行為的演化與發展等動態信息。受知識圖譜構建方法的啟發,本文引入了一種特殊的知識圖譜——事件圖譜。在事件圖譜的構建工作中,HOLME等人[8]將這種結構統稱為時間網絡(Temporal Networks),這是具有跨學科性質的研究內容;CHAMBERS等人[9]通過引入局部有序的時序關系,構建了一種新的結構化數據表示:敘事事件鏈(Narrative Event Chains);LI等人[10]在其基礎上又引入了因果關系,稱為事件演化圖譜(Event Evolutionary Graph),使其能描述現實世界中事件的演化和發展邏輯。

  本文將犯罪行為(事件)對應知識圖譜中的實體,犯罪行為的演化關系對應知識圖譜中的關系,將“實體-關系-實體”的三元組變為“犯罪行為-演化關系-犯罪行為”的三元組,犯罪行為之間用演化關系彼此連接,構建犯罪行為演化圖譜,用來描述案情的演化與發展規律。

  3 定義(Definition)

  犯罪行為(Criminal Act)是指案情描述中的事件提及,即表示案情中事件發生的謂語動詞及其所包含的參數,其中謂語動詞稱為“犯罪行為詞”。在本文中,我們利用基于NLP(Natural Language Process)的語法分析工具提取犯罪行為,識別犯罪行為之間的時序、因果兩種演化關系,構造出犯罪行為鏈(Criminal Act Chain),最后將多個犯罪行為鏈拼接為犯罪行為演化圖譜。在本部分中,我們會對犯罪行為、犯罪行為鏈及犯罪行為演化圖譜等概念做出系統性的定義與解釋。

  3.1 犯罪行為元組及演化關系

  5 實驗(Experiment)

  5.1 數據來源

  本文構建犯罪行為演化圖譜的數據來源于貴州省高級人民法院提供的裁判文書,由于涉毒案件在貴州省歷年案件中占比排在前列,且案情描述清晰,邏輯性較強,故我們以其中涉毒案件為例,獲取了總計20,509 篇涉毒案件,主要包括販賣毒品罪、運輸毒品罪及非法持有毒品罪等案由。表1中展示了數據的構成。

  5.2 犯罪行為抽取結果

  犯罪行為抽取為犯罪行為演化圖譜構建及犯罪行為演化模式識別的關鍵步驟,犯罪行為抽取方法的效果將直接影響后續工作的結果。為了驗證上述抽取方法的有效性,我們從涉毒案件裁判文書數據集中隨機選取了500 篇案件進行人工標注,獲得共計19,536 個標簽,將其按3∶1∶1的比例分別構建訓練集、驗證集與測試集,將本文中基于LTP工具及規則的抽取算法(LTP+R)與當前最有效的基于BERT預訓練模型的機器閱讀理解(MRC)抽取算法[14]進行對比,其結果如表2所示。

  從表2中可以看到,在所有類別的案件中,LTP+R方法的準確率與F1值均高于BERT-MRC方法,故我們判定,基于LTP的無監督抽取方法LTP+R在犯罪行為的抽取中是有效的。

  5.3 犯罪行為圖譜構建結果

  在本部分中,我們將展示從犯罪案件中抽取的犯罪行為演化圖譜,將每一篇案件對應的犯罪行為演化圖譜存儲為json格式,利用pyecharts工具將json格式的犯罪行為演化圖譜進行可視化展示,如圖4所示。

  圖4為以某一販賣毒品案件為基礎自動構建出的犯罪行為演化圖譜,其中每一個較大的節點為行為詞,與較小的節點所代表的行為參數共同構成了一個犯罪行為實例,并通過較大的節點之間的邊所代表的演化關系連接,組成了一個能夠描述案情發展的犯罪行為演化圖譜。在由20,509 篇裁判文書構建的20,509 個犯罪行為圖譜中,包含200,948 個節點、593,588 個屬性及203,236 條有向邊。裁判文書的犯罪行為演化圖譜描述方法具有豐富的上下文語義特征,故我們認為犯罪行為演化圖譜的自動構建方法能在一定程度上描述案情的發展演化。

  我們將通過犯罪行為演化圖譜的特征數量來展示犯罪行為演化圖譜的構建結果,如表3所示。表3中,犯罪行為元組由行為觸發詞及其參數構成。行為觸發詞對應圖4中的節點數量,犯罪行為參數(包含施事者、受事者、間接受事者、時間、地點)對應節點屬性的數量,演化關系對應圖4中的邊。

  在表4與表5中分別展示了犯罪行為抽取的結果與犯罪行為演化關系的示例。可以看出在表4中,犯罪行為元組包含犯罪行為詞及其參數,犯罪行為元組可以簡單明了地描述犯罪行為;在表5中展示了“犯罪行為-演化關系-犯罪行為”的犯罪行為三元組結構。

  6 結論(Conclusion)

  本文通過犯罪行為抽取方法生成犯罪行為鏈,構建犯罪行為演化圖譜,對裁判文書的案情描述進行層層抽象。在此過程中提出了一種新的案情描述框架——犯罪行為演化圖譜,以此來對案情進行包含上下文語境的結構化表示,為警務工作和司法輔助審判的信息化建設提供了一種新的案情分析方法。在未來的工作中,我們將繼續完善和推廣犯罪行為圖譜理論,并深入挖掘犯罪行為演化圖譜在犯罪行為預測、類案推薦、罪名預測、法條推薦等方向的應用。

  參考文獻(References)

  [1] LIAN H, QIN Z, HE T, et al. Knowledge graph construction based on judicial data with social media[C]// WANG G, LIN X, HENDLER J, et al. 2017 14th Web Information Systems and Applications Conference (WISA). Piscataway, USA: IEEE, 2017:225-227.

  推薦閱讀:軟件開發中測試驅動開發的運用

主站蜘蛛池模板: 姚安县| 泗水县| 梁平县| 张家界市| 绥江县| 长泰县| 清镇市| 托里县| 罗城| 南宁市| 日喀则市| 乌审旗| 随州市| 紫金县| 荥经县| 水富县| 康平县| 湘潭市| 锡林郭勒盟| 乌兰县| 高青县| 澜沧| 西乌珠穆沁旗| 肥乡县| 桐梓县| 龙江县| 丰宁| 宜良县| 南通市| 曲靖市| 定兴县| 留坝县| 土默特左旗| 子长县| 彰武县| 云南省| 岳池县| 绍兴县| 云浮市| 麦盖提县| 和田县|