摘 要: 針對(duì)司法領(lǐng)域關(guān)系抽取任務(wù)中模型對(duì)句子上下文理解不充分、重疊關(guān)系識(shí)別能力弱的問題,提出了一種基于刑事 Electra(CriElectra)的編-解碼關(guān)系抽取模型。首先參考中文 Electra 的訓(xùn)練方法,在一百萬份刑事數(shù)據(jù)集上訓(xùn)練得到了 CriElectra,然后在雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)模型上加入 CriElectra 的詞特征進(jìn)行司法文本的特征提取,最后通過膠囊網(wǎng)絡(luò)(CapsNet)對(duì)特征進(jìn)行矢量聚類,實(shí)現(xiàn)實(shí)體間的關(guān)系抽取。在自構(gòu)建的故意傷害罪關(guān)系數(shù)據(jù)集上,與通用 Electra 等預(yù)訓(xùn)練語言模型相比,CriElectra 在司法文本上的重訓(xùn)過程使得學(xué)習(xí)到的詞向量蘊(yùn)含更豐富的領(lǐng)域信息,F(xiàn)1 值提升 1.93%;與基于池化聚類的模型相比,膠囊網(wǎng)絡(luò)通過矢量運(yùn)算能夠有效防止空間信息丟失、提高重疊關(guān)系的識(shí)別能力,使得 F1 值提升 3.53%。
本文源自王小鵬; 孫媛媛; 林鴻飛, 計(jì)算機(jī)應(yīng)用 發(fā)表時(shí)間:2021-07-28
關(guān)鍵詞: 司法領(lǐng)域;關(guān)系抽取;預(yù)訓(xùn)練語言模型;雙向長(zhǎng)短期記憶網(wǎng)絡(luò);膠囊網(wǎng)絡(luò)
0 引言
隨著智慧司法建設(shè)的推進(jìn),如何幫助辦案人員從海量的犯罪文書中獲取有用的信息成為了一項(xiàng)非常有意義的研究工作,司法領(lǐng)域的自然語言處理技術(shù)也因此受到了研究者的廣泛關(guān)注和重視,特別是對(duì)海量司法文書進(jìn)行智能分析和處理已成為司法人工智能研究的重要內(nèi)容。關(guān)系抽取作為信息挖掘的基礎(chǔ)性工作,不僅可實(shí)現(xiàn)司法信息的獲取,還在司法問答、刑期預(yù)判和司法知識(shí)圖譜構(gòu)建等任務(wù)中有重要應(yīng)用。
司法文書,是指司法機(jī)關(guān)制作的具有司法效力或司法意義的文書[1]。司法關(guān)系抽取則是在已知司法文書中具有司法屬性的名詞或短語實(shí)體基礎(chǔ)上,識(shí)別出實(shí)體之間的關(guān)系事實(shí),據(jù)此構(gòu)造三元組,如:[張三,攻擊關(guān)系,李四], “張三”“李四”是司法實(shí)體,他們之間的關(guān)系事實(shí)是攻擊關(guān)系。相比較于通用領(lǐng)域的關(guān)系抽取研究,司法領(lǐng)域關(guān)系抽取面臨以下問題和挑戰(zhàn):
通用領(lǐng)域預(yù)訓(xùn)練語言模型在司法領(lǐng)域的應(yīng)用存在一定局限性。首先,司法文本是按照嚴(yán)格的模板進(jìn)行撰寫的,相較于通用語料庫(kù)(如:維基百科語料),在文本結(jié)構(gòu)上存在較大差異,此外,通用語料庫(kù)和司法文本語料庫(kù)的詞分布并不相同,因此很難確保通用領(lǐng)域預(yù)訓(xùn)練語言模型在司法任務(wù)上的性能表現(xiàn)。
司法文書中,存在許多同一實(shí)體對(duì)應(yīng)多個(gè)關(guān)系的情況,這將嚴(yán)重混淆關(guān)系提取。如“被告人張三和被告人李四系鄰居。”描述中“張三”和“李四”從司法層次講是共犯關(guān)系,在社會(huì)層次中他們之間是鄰里關(guān)系。當(dāng)數(shù)據(jù)集中關(guān)系重疊較多時(shí),模型就很難清楚地識(shí)別出所有的關(guān)系標(biāo)簽。現(xiàn)有關(guān)系抽取模型使用的 MaxPooling[2]和詞級(jí)注意 [3]等方法雖然可以很好的將低層級(jí)語義合并生成高層級(jí)關(guān)系表示向量,使得模型在單標(biāo)簽關(guān)系識(shí)別上表現(xiàn)優(yōu)異,但對(duì)于多重關(guān)系抽取,這種高層次的關(guān)系向量卻很難準(zhǔn)確地表達(dá)標(biāo)簽特征,進(jìn)而影響性能。
針 對(duì) 以 上 問 題 , 本 文 提 出 了 一 種 基 于 刑 事 Electra(Criminal-Efficiently learning an encoder that classifies token replacements accurately, CriElectra)的編、解碼關(guān)系抽取模型,解碼器由雙向長(zhǎng)短期記憶網(wǎng)絡(luò)[4](Bidirectional Long Short-Term Memory, BiLSTM)和膠囊網(wǎng)絡(luò)[5](Capsule Network, CapsNet) 構(gòu) 成 , 即 : CriElectra-BiLSTM-CapsNet , 簡(jiǎn) 稱 CELCN。首先參考中文 Electra[6]的訓(xùn)練方法,在一百多萬份刑事案件數(shù)據(jù)集上訓(xùn)練得到了 CriElectra,然后在雙向長(zhǎng)短期記憶網(wǎng)絡(luò)上加入 CriElectra 的詞特征進(jìn)行中文文本的特征提取。最后利用膠囊網(wǎng)絡(luò)對(duì)特征信息進(jìn)行矢量聚類,實(shí)現(xiàn)實(shí)體間的關(guān)系抽取。本文在自行設(shè)計(jì)并構(gòu)建的故意傷害罪關(guān)系抽取數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),模型的 F1 值可以達(dá)到 79.88%,相較于其它基線方法,CELCN 可以取得非常不錯(cuò)的效果。本文主要有以下三個(gè)貢獻(xiàn)點(diǎn):
1) 基于司法業(yè)務(wù)需求和罪名特點(diǎn),提出了一種側(cè)重于司法屬性和社會(huì)屬性的關(guān)系定義方案,并構(gòu)建了故意傷害罪的關(guān)系抽取數(shù)據(jù)集;
2) 提出了基于百萬刑事數(shù)據(jù)的預(yù)訓(xùn)練語言模型 CriElectra,該預(yù)訓(xùn)練語言模型能夠更有效的學(xué)習(xí)表示司法領(lǐng)域文書中的語義信息;
3) 基于膠囊網(wǎng)絡(luò)進(jìn)行高維矢量空間的特征聚類,能夠有效的解決數(shù)據(jù)集中多標(biāo)簽關(guān)系的識(shí)別任務(wù)。
1 相關(guān)研究
1.1 關(guān)系抽取
關(guān)系抽取一般可分為基于機(jī)器學(xué)習(xí)的方法和深度學(xué)習(xí)的方法。基于機(jī)器學(xué)習(xí)的方法是以自然語言處理技術(shù)(Natural Language Processing, NLP)中的統(tǒng)計(jì)學(xué)語言模型為基礎(chǔ),從分類的角度研究關(guān)系抽取,即根據(jù)各種語言學(xué)特征識(shí)別實(shí)體對(duì)于每個(gè)標(biāo)簽的可能性,然后再通過基于統(tǒng)計(jì)模型的分類器進(jìn)行關(guān)系的分類[7],這種方法可按照有無標(biāo)注好的數(shù)據(jù)集分為有監(jiān)督、無監(jiān)督和弱監(jiān)督三種方法,其中有監(jiān)督的方法是指所有數(shù)據(jù)集都是通過人工標(biāo)注形成的,該方法具有很高的準(zhǔn)確性,但過分依賴標(biāo)注的數(shù)據(jù)集,成本較大。無監(jiān)督方法不需要人工語料作為支撐,能自動(dòng)識(shí)別文本中三元組,因此在處理大規(guī)模數(shù)據(jù)語料是具有其他方法無法比擬的優(yōu)勢(shì),但缺少人工標(biāo)注導(dǎo)致其準(zhǔn)確率和召回率較低。弱監(jiān)督的方法是指根據(jù)少量已標(biāo)注好的語料三元組,在未標(biāo)注的語料中發(fā)現(xiàn)新的三元組,進(jìn)而形成大規(guī)模的語料集,但由于噪聲等問題并未完全解決,其性能也受到了限制。基于深度學(xué)習(xí)關(guān)系抽取的方法,主要包括基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)[8]的方法、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[9]的方法以及二者相結(jié)合的方法[10]。在此基礎(chǔ)上,Lu 等[11]引入 PCNN(Piecewise Convolutional Neural Networks)對(duì)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的池化層進(jìn)行改進(jìn),并使用句子級(jí)選擇注意力機(jī)制減輕錯(cuò)誤標(biāo)簽的影響,最終 F1 值的結(jié)果比基于多示例學(xué)習(xí)的方法高了 5%。Kiyavas 等[12]引入詞級(jí)別的注意力機(jī)制并結(jié)合 BiLSTM 對(duì)文本進(jìn)行建模從而實(shí)現(xiàn)結(jié)果的提升。Luo 等[13]結(jié)合雙向 GRU(Gate Recurrent Unit)和 PCNN 模型方法實(shí)現(xiàn)對(duì)實(shí)體結(jié)構(gòu)等信息的提取,在 NYT(New York Times)數(shù)據(jù)集上表現(xiàn)優(yōu)異。
1.2 預(yù)訓(xùn)練語言模型
近年來,針對(duì)預(yù)訓(xùn)練語言模型的研究發(fā)展迅猛,預(yù)訓(xùn)練語言模型是一種動(dòng)態(tài)詞向量表示方法,不同于靜態(tài)詞向量,該詞向量基于上下文信息表示單詞的語義知識(shí),能夠很好的解決一詞多義的問題。在預(yù)訓(xùn)練語言模型研究中,Peters 等[14] 提出的預(yù)訓(xùn)練語言模型 ELMo(Embedding from Language Modeols),利用 BiLSTM 不僅解決了長(zhǎng)距離信息丟失問題,還可對(duì)詞進(jìn)行復(fù)雜特征(如句法和語義)和變化的語言語境下進(jìn)行建模。2018 年,Devlin 等[15]提出自編碼語言模型 Bert(Bidirectional Encoder Representation from Transformers),不同于 GPT[16] (Generative Pre-Training)中單向的語義知識(shí)學(xué)習(xí),它通過 Transformer 實(shí)現(xiàn)了對(duì)文本的雙向特征表示,并在 11 項(xiàng)自然語言處理任務(wù)中取得了最佳成績(jī)。2019 年,Yang 等[17]提出了自回歸預(yù)訓(xùn)練模型 XLNet,在多項(xiàng)自然語言處理任務(wù)中獲得了顯著的提升。在具體的任務(wù)應(yīng)用中,李妮等[18]、王子牛等[19]、尹學(xué)振等[20]、王月等[21]采用基于 Bert 的模型分別對(duì)通用領(lǐng)域、軍事領(lǐng)域、警情領(lǐng)域命名實(shí)體的識(shí)別進(jìn)行了研究,實(shí)驗(yàn)結(jié)果均有不同程度提高。但隨著預(yù)訓(xùn)練語言模型的進(jìn)一步發(fā)展,研究者發(fā)現(xiàn)由于文本結(jié)構(gòu)、詞分布的差異,開放領(lǐng)域的預(yù)訓(xùn)練模型在特定領(lǐng)域表現(xiàn)一般,于是 Lee 等[22] 提出了生物醫(yī)學(xué)領(lǐng)域的 BioBert(Biomedical Bert),實(shí)驗(yàn)結(jié)果表明,BioBert 的 F1 值比 Bert 高了 2.8%,此外,2019 年清華大學(xué)公開了基于百萬刑事數(shù)據(jù)集和百萬民事數(shù)據(jù)集的刑事 Bert 和民事 Bert,從其公布的結(jié)果看,這兩種模型相較于通用 Bert 可以在司法領(lǐng)域任務(wù)上可實(shí)現(xiàn)快速的收斂。因此,特定領(lǐng)域語言模型的研究逐漸成為大家研究和探討的熱點(diǎn)。
1.3 膠囊網(wǎng)絡(luò)
為了改善 CNN 和 RNN 在特征學(xué)習(xí)過程中信息丟失問題,Hinton 等[23]首次提出了可自動(dòng)學(xué)習(xí)部分與整體之間關(guān)系的膠囊網(wǎng)絡(luò)。2017 年 Sabour 等[5]基于膠囊網(wǎng)絡(luò)進(jìn)一步提出一種可識(shí)別高度重疊數(shù)字的動(dòng)態(tài)路由算法,該膠囊網(wǎng)絡(luò)算法在低層特征到高層特征的聚類過程中,不僅關(guān)注特征存在的可能性,還關(guān)注特征的空間分布信息,使模型獲取的信息更加全面,因此在圖像識(shí)別任務(wù)上取得了非常不錯(cuò)的效果。2018 年Hinton等[24]提出了一種基于EM (Expectation Maximization) 算法的膠囊網(wǎng)絡(luò),該方法將一維向量膠囊改進(jìn)為二維向量膠囊,使得膠囊可以表示更多的特征信息。2018 年 Zhang 等[25] 將膠囊網(wǎng)絡(luò)引入關(guān)系抽取任務(wù)中,主要進(jìn)行了兩部分的工作,首先在動(dòng)態(tài)路由算法引進(jìn)注意力值,其次,在邊界損失函數(shù)中設(shè)置了可學(xué)習(xí)閾值參數(shù),從而優(yōu)化了整個(gè)算法模型,在多標(biāo)簽關(guān)系抽取數(shù)據(jù)集 NYT-10 上,F(xiàn)1 值可以得到 2%的提升,隨后,Zhang 等[26]將詞注意力機(jī)制與動(dòng)態(tài)路由結(jié)合,提出了 Att-CapNet (Attentive Capsule Network)模型,進(jìn)一步改進(jìn)了膠囊網(wǎng)絡(luò),最近,膠囊網(wǎng)絡(luò)也被逐漸應(yīng)用于文本分類[27]和疾病分類[28]等 NLP 任務(wù),且都取得了很好的性能表現(xiàn)和提升。
2 模型結(jié)構(gòu)
CELCN 算法模型結(jié)構(gòu)如圖 1 所示,模型包含三部分,基于 CriElectra 的預(yù)訓(xùn)練層,基于 BiLstm 的特征提取層以及基于 CapsNet 的特征聚類層,模型首先通過 CriElectra 得到單個(gè)字符的動(dòng)態(tài)語義向量表示,然后把字符向量輸入到 BiLSTM 模型,對(duì)其序列和層級(jí)建模以提取語義和結(jié)構(gòu)特征,然后通過 CapsNet 對(duì)特征矩陣進(jìn)行矢量空間的特征聚類,形成高層膠囊,再根據(jù)高層膠囊的模長(zhǎng)預(yù)測(cè)關(guān)系標(biāo)簽的可能性。
2.1 基于 CriElectra 的預(yù)訓(xùn)練層
2.1.1 訓(xùn)練 CriElectra
Bert 在預(yù)訓(xùn)練語言模型領(lǐng)域取得了非常好的成就,但 Bert 采用的 MLM(Mask Language Model)預(yù)訓(xùn)練方式并不高效的,它只有 15%的 Token 對(duì)參數(shù)的更新有用,其他的 85% 不參與梯度更新,除此之外,預(yù)訓(xùn)練階段與特征提取階段存在信息不匹配,因?yàn)橄掠稳蝿?wù)的特征提取階段,并不會(huì)出現(xiàn) “[Mask]”這個(gè)詞,而在上游預(yù)訓(xùn)練過程中卻使用“[Mask]” 替換 Token。于是 Clark 等[6]基于對(duì)抗網(wǎng)絡(luò)設(shè)計(jì)了預(yù)訓(xùn)練模型 Electra,該模型提出了 RTD(Replace Token Detection)預(yù)訓(xùn)練任務(wù),與 MLM 方式不同,RTD 的預(yù)訓(xùn)練目標(biāo)是學(xué)習(xí)區(qū)分輸入的詞是否被替換,盡管引入了“[Mask]”,但是在梯度傳播的過程中,模型還需關(guān)注有沒有發(fā)生過替換,因此降低了 “[Mask]”的影響,在很大程度上緩解了 MLM 引起的信息不匹配的負(fù)面影響,此外,由于 RTD 在訓(xùn)練過程中全部 Token 會(huì)參與參數(shù)更新,因此 Electra 訓(xùn)練速度更快,其實(shí)驗(yàn)結(jié)果還表明,在句對(duì)分類、閱讀理解等任務(wù)上的 Electra 性能要優(yōu)于 Bert,在自然語言推斷、句對(duì)分類任務(wù)上性能表現(xiàn)相當(dāng)。
基于 Electra 訓(xùn)練更快、性能與 Bert 相當(dāng)?shù)忍攸c(diǎn),本文基于中文 Electra 提出了 CriElectra,訓(xùn)練數(shù)據(jù)來源于中國(guó)裁判文書網(wǎng)公開的文書數(shù)據(jù),首先通過下載獲取百萬份刑事文書數(shù)據(jù),然后通過篩選形成 100 多萬份刑事案件數(shù)據(jù)集,其中所涉罪名包括盜竊、涉毒、交通駕駛罪等十類 469 個(gè)刑事罪名,地域包含 23 個(gè)省、5 個(gè)自治區(qū)、4 個(gè)直轄市。
CriElectra 訓(xùn) 練 示 例 如 圖 2 所 示 , 給 定 輸 入 序 列 1 2 { , , , }n Ε ? ? e e e ,由生成器 G 進(jìn)行 MLM 任務(wù)預(yù)測(cè)屏蔽詞,即隨機(jī)屏蔽輸入序列中的詞生成帶有“[MASK]”的序列,然后通過 transformer 的結(jié)構(gòu)編碼器得到一組包含上下文信息的向量 1 2 ( ) [ , ,..., ] G g g gn h h h h Ε ? ,再經(jīng)歸一化層預(yù)測(cè)屏蔽位置 gt 的詞,過程如下所示: p e softmax h G gt ( | ) ( ( ) ) E ? G gt E (1) 生成器訓(xùn)練過程中的損失函數(shù)如下:
L G gt ? p e ? E ? ? ? E (2) 判別器的目標(biāo)是判斷輸入序列中的詞是否發(fā)生替換,即將生成器得到序列 1 2 { , , , }n D ? ? d d d 通過 Transfomer 結(jié) 構(gòu) 的 編 碼 器 得 到 1 2 ( ) [ , ,..., ] D d d dn h h h h E ? , 再 經(jīng) sigmoid 層輸出,過程如下所示: ( , ) ( ( ) ) D dt sigmoid h E ? D dt E (3) 式(3)中 dt dn ? ,更具體地說,通過用生成器樣本替換屏蔽的標(biāo)記來創(chuàng)建一個(gè)損壞的示例 corrupt E ,并訓(xùn)練鑒別器來預(yù)測(cè) corrupt E 中的哪些標(biāo)記與原始輸入 E 相匹配,判別器訓(xùn)練過程中的損失函數(shù)如下: 1 2 1 ( , ) E( ) n Disc Disc Disc t L ? G L L ? E ? ? ? (4) 1 ( )log ( , ) corrupt L I Disc ? ? ? E E E dt t D dt (5) 2 ( )log(1 ( , )) corrupt L I Disc ? ? ? ? E E E dt t D dt (6) 式(4)中 ? G 與 ? D 分別為生成器和判別器的參數(shù), I a b ( ) ? 為判別函數(shù),當(dāng)滿足條件 a b ? 時(shí),取 1,不滿足時(shí)為 0,CriElectra 訓(xùn)練通過最小化生成器和判別器的交叉熵?fù)p失函數(shù)進(jìn)行的,具體可以表示為: , ? min ( , ) ( , ) ? E E ? DG Loss G G D D L λL ? ?? ? (7) 由于生成器的體積是判別器的四分之一,為避免模型間損失失衡因此使用 λ =0.5 平衡生成器和判別器的損失。該模型 Pytorch 和 Tensorflow 版 本 在 之 后 將 會(huì) 開 源,供學(xué)者共同研究。
2.1.2 CriElectra 應(yīng)用
CriElectra 預(yù)訓(xùn)練語言模型旨在讓下游任務(wù)模型能夠使用更好的司法文本的詞表示,文本中句子可以表示成字符的集合 1 2 { }, , , n E ? ? e e e , n e 表示句子中第 n 個(gè)字符,其中 n?N 整個(gè) CriElectra 進(jìn)行向量矩陣轉(zhuǎn)化的過程可以表示為: ( , ) X ? CirElectra E ?CriElectra (8) 式 (8) 中 E 為 輸 入 到 模 型 的 句 子 向 量 表 示 , X ?R N d? Electra 為模型輸出的 CriElectra 向量矩陣,X 可以具體表示為 1 2 X ?{ }, ? n xx x , , ,? Electra 為 Electra 模型相關(guān)參數(shù)。
2.2 基于 BiLSTM 的特征提取層
特征編碼層所使用的模型為雙向的長(zhǎng)短期記憶模型 BiLSTM,它是 RNN 的一種變體,它包含了一個(gè)門控記憶細(xì)胞來捕獲數(shù)據(jù)中的長(zhǎng)期依賴關(guān)系,并能夠避免由標(biāo)準(zhǔn) RNN 引起的梯度消失和爆炸問題。雙向長(zhǎng)短期記憶循環(huán)模型由兩個(gè)不同方向的長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)組成,兩個(gè) LSTM 分別從前向和后向?qū)W習(xí)單詞的上下文信息,再將二者拼接起來,作為當(dāng)前時(shí)刻的輸出,隱藏層狀態(tài)可以用以下公式描述: h h ,x n ? LSTM , ? n-1 n ? LSTM ????? ??????? ???? (9) h LSTM h x n ? ? n n ?1 , ,? LSTM ????? ??????? ???? (10) n n n h h h ? ???? ??? (11) 式(9)、式(10)式(11)中, dLSTM n h ?R ???? 和 dLSTM n h ?R ???? 分別代表前向和后向 LSTM 在位置 n 的隱藏層狀態(tài),? LSTM 為 LSTM 模型訓(xùn)練參數(shù),? 代表拼接操作, 2 dLSTM n h ? ?R 。
2.3 基于膠囊網(wǎng)絡(luò)的特征聚類層
本文中膠囊網(wǎng)絡(luò)結(jié)構(gòu)如圖 3 所示,將 BiLSTM 提取的特征 h 分割到低層膠囊 u d u?R 中,為保證膠囊的模長(zhǎng)和為 1,經(jīng)非線性壓縮函數(shù) g 得到每個(gè)低階膠囊 utk ,具體過程如下所示: [ ; ; ; ] ' ' ' t t1 t1 tk h u u u ? ? (12) 2 2 ( ) 1 ' ' tk ' tk tk tk ' ' tk tk u u g u u u ? ?? u (13) 式(12)和式(13)中,? ? x y; 表示 x 和 y 垂直連接,表示計(jì)算向量的模長(zhǎng)。通過動(dòng)態(tài)路由算法實(shí)現(xiàn)低層膠囊 ui 與高層膠囊 Rj 之間的信息傳遞,偽代碼如算法 1 所示。其中, z 為路由的迭代次數(shù)。
訓(xùn)練過程中,通過最小化高層膠囊的邊際損失實(shí)現(xiàn)訓(xùn)練。第 j 個(gè)高層膠囊的損失函數(shù) Lj 為: j j j L L L ? ?? ? ? (14) 2 max(0, ) j j j L Y m R ? ? ? ? (15) 2 (1 ) max(0,| ) j j j L Y R m ? ? ? ? ? (16) 式(14)、式(15)和式(16)中,若句子的關(guān)系為 Rj 高層膠囊對(duì)應(yīng)的標(biāo)簽,則Yj 值取 1,否則取 0,m ? =0.9 為上邊界, m ? =0.1 為下邊界, ? ? 0.5 ,模型的全部損失是所有高層分類膠囊損失之和。
算法 1 動(dòng)態(tài)路由算法偽代碼輸入 低層膠囊 ui ,高層膠囊 Rj ,迭代次數(shù) z 輸出 高層膠囊 Rj 1) for all capsule ui and capsule Rj do 2) 0 ij b ? 3) end 4) for z iterations do 5) ( ) w softmax b i ? i 6) j ? ( ) ? ij j i i R W u g w 7) ij ij j i j b b ? ?W u R 8) end 9) Return Rj
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集
律文本不同于其他領(lǐng)域文本,其每個(gè)罪名的所涉及的概念與構(gòu)成、罪名認(rèn)定以及立案量刑的標(biāo)準(zhǔn)均不一致,所涉及的司法文書實(shí)體分布、業(yè)務(wù)也各有側(cè)重。介于以上特性,目前采用統(tǒng)一模型抽取所有司法文書當(dāng)中的關(guān)系較為困難,因此本文選取故意傷害罪司法文書作為關(guān)系抽取的研究對(duì)象。
由于故意傷害罪關(guān)注的核心要素是人和物,本文在參考通用領(lǐng)域人物關(guān)系定義的基礎(chǔ)上,根據(jù)《刑法》中對(duì)社會(huì)屬性和司法屬性的關(guān)系需求,從“人”與“人”、“人”與“物” 兩種粗粒度出發(fā)定義了 9 種分類關(guān)系,具體的:
親屬關(guān)系:指兩個(gè)自然人之間存在直系親屬或旁系親屬關(guān)系;
同事關(guān)系:指兩個(gè)自然人在同一個(gè)公司工作或同一時(shí)間從事同一份工作;
鄰里關(guān)系:指兩個(gè)自然人生活在同一個(gè)社區(qū)、同一個(gè)單元或同一個(gè)村;感情關(guān)系:指兩個(gè)自然人之間未存在法律認(rèn)可的情侶關(guān)系,如戀愛、情人關(guān)系;施動(dòng)關(guān)系:指兩個(gè)自然人是被告人和被害人的關(guān)系;共犯關(guān)系:指兩個(gè)自然人同為被告人;使用關(guān)系:在一起案件中,以某作案工具為中心,某自然人使用了該作案工具做出了攻擊行為,則該自然人與該作案工具之間是使用關(guān)系;攻擊關(guān)系:在一起案件中,以某作案工具為中心,該作案工具攻擊了某個(gè)自然人,則該自然人與該作案工具之間是攻擊關(guān)系;擁有關(guān)系:在一起案件中,存在的違禁作案工具的所屬關(guān)系,違禁作案工具指槍、爆炸物品、劇毒物品等物品或工具;除此之外,還定義了一種 NA 關(guān)系,表明“人”與“人”、 “人”與“物”之間不存在關(guān)系或者存在的關(guān)系不屬于已定義的 9 種關(guān)系。
本文標(biāo)注的故意傷害罪的文書內(nèi)容來自于中國(guó)裁判文書網(wǎng)的公開文書數(shù)據(jù)。利用規(guī)則對(duì)犯罪事實(shí)描述部分進(jìn)行抽取,再由志愿者進(jìn)行手工標(biāo)注,具體的數(shù)據(jù)分布如圖 4 所示,除此之外,由于司法文本的特殊性,其中關(guān)系重疊的語料占比為 7.66%,同時(shí),為了更好的描述案件中實(shí)體間的邏輯指向關(guān)系,構(gòu)建過程中對(duì)關(guān)系的方向性也進(jìn)行標(biāo)注,如三元組和,它們的實(shí)體對(duì)都為 E1 和 E2,但由于實(shí)體在文中出現(xiàn)前后順序不一樣,因此兩實(shí)體之間的關(guān)系指向會(huì)發(fā)生變化,本文稱 R1 和 R2 互為反向關(guān)系。具體的數(shù)據(jù) 集 會(huì) 再 經(jīng) 整 理 和 擴(kuò) 充 后 進(jìn) 行 開 源,供學(xué)者共同研究。
3.2 實(shí)驗(yàn)設(shè)置
對(duì)于 CriElectra 預(yù)訓(xùn)練語言模型,分別采用以下幾種模型方法進(jìn)行實(shí)驗(yàn)對(duì)比:
為了評(píng)估 BiLSTM 的特征提取的能力,分別采用以下幾種模型方法進(jìn)行實(shí)驗(yàn)對(duì)比: CERCN : 特 征 提 取 層 使 用 RNN , 模 型 結(jié) 構(gòu) 為 CriElectra-RNN-CapsNet; CECCN : 特 征 提 取 層 使 用 CNN , 模 型 結(jié) 構(gòu) 為 CriElectra-CNN-CapsNet; CECN : 未 使 用 特 征 提 取 層 , 模 型 結(jié) 構(gòu) 為 CriElectra-CapsNet;對(duì)于膠囊網(wǎng)絡(luò),分別采用以下幾種模型方法進(jìn)行實(shí)驗(yàn)對(duì)比: CELAP:特征提取層采用 MaxPooling 特征聚類層[2],模型結(jié)構(gòu)為 CriElectra-BiLSTM-MaxPooling; CELMP:特征提取層采用 AvgPooling 特征聚類層,模型結(jié)構(gòu)為 CriElectra-BiLSTM-MaxPooling。
3.3 實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)中,關(guān)系抽取模型的性能由從非結(jié)構(gòu)化文本中關(guān)系標(biāo)簽的最終提取結(jié)果的精確率(Precision)、召回率(Recall)以及 F1 值(F1-score)來進(jìn)行評(píng)估。評(píng)價(jià)指標(biāo)的計(jì)算方式如下所示: correct_num precision = predict_num (17) correct_num recall = true_num (18) 1 2* precision* recall F = precision+ recall (19) 式(17)、(18)和(19)中, correct_num 表示正確預(yù)測(cè)的標(biāo)簽個(gè)數(shù), predict_num 表示預(yù)測(cè)的標(biāo)簽總數(shù),precision 表示精確率,true num _ 表示實(shí)際正確的標(biāo)簽總數(shù),recall 表示召回率。
CELCN 與 ELCN 訓(xùn)練的 F1 曲線如圖 5 所示,可以看出,訓(xùn)練前期基于CriElectra的模型相較于基于中文Electera的模型,收斂更快,當(dāng)模型趨于穩(wěn)定時(shí),CELCN 模型的 F1 值更高,性能更優(yōu),因此可表明,相較于中文 Electra,在故意傷害罪關(guān)系抽取數(shù)據(jù)集上,CriElectra 預(yù)訓(xùn)練模型能夠更好的提供司法文本中詞的向量表示,使得關(guān)系抽取的結(jié)果更優(yōu)。
為了進(jìn)一步的研究 CriElectra 與別的司法領(lǐng)域預(yù)訓(xùn)練語言模型之間的性能差異,分別基于清華公開的刑事 Bert 和民事 Bert 展開實(shí)驗(yàn),CELCN 與 XBLCN、MBLCN 訓(xùn)練過程中的 F1 值曲線如圖 6 所示,可以看出,三條曲線當(dāng)中,民事 Bert 的不管是在收斂速度還是最終結(jié)果,表現(xiàn)都很一般,而 CriElectra 與刑事 Bert 相比,性能表現(xiàn)相當(dāng),但由于 CriElectra 在訓(xùn)練構(gòu)建過程中,所花費(fèi)時(shí)間成本更低,因此,基于 Electra 構(gòu)建特定領(lǐng)域預(yù)訓(xùn)練模型,是一個(gè)很好的研究方向。
以 CriElectra 預(yù)訓(xùn)練模型、中文 Electra、刑事 Bert 以及民事 Bert 為預(yù)訓(xùn)練層實(shí)驗(yàn)的詳細(xì)準(zhǔn)確率、召回率和 F1 值如表 1 所示,可以看出使用 CriElectra 相較于使用中文 Electera,準(zhǔn)確率可以提升 1.54%,召回率可以提升 1.17%,F(xiàn)1 的提升可以達(dá)到 1.93%,效果顯著。對(duì)比于使用民事 Bert,CELCN 在準(zhǔn)確率、召回率更高,F(xiàn)1 值得可得到 3.3%的提升。跟刑事 Bert 相比,性能表現(xiàn)相當(dāng)。這也證明了 CriElectra 能夠更好的學(xué)習(xí)到法律文本的詞向量表示。
為研究 BiLSEM 的文本特征提取表現(xiàn),本文分別基于 RNN、CNN 做了對(duì)比試驗(yàn),同時(shí)為了解 BiLSTM 是否對(duì)模型的性能有所幫助,還進(jìn)行了 CECN 模型實(shí)驗(yàn),實(shí)驗(yàn)的詳細(xì)結(jié)果如圖表 1 所示,從表中可以獲悉,BiLSTM 相較于 RNN、 CNN 能夠取得更好的 F1 值,這是因?yàn)楸疚乃脭?shù)據(jù)集語料句子長(zhǎng)度較長(zhǎng),而 RNN 和 CNN 的長(zhǎng)距離學(xué)習(xí)能力較弱。對(duì)于 CECN 模型,BiLSTM 能夠給模型帶來 0.41%的性能提升,盡管提升有限,但在一定程度上表明基于 BiLSTM 的特征提取層能夠使模型更好的學(xué)習(xí)到文本的特征表示。
為研究膠囊網(wǎng)絡(luò)的性能表現(xiàn),本文分別進(jìn)行了基于 Maxpooling 的特征聚類層和基于 Avgpooling 的特征聚類層的實(shí)驗(yàn),其中 CELCN、CELMP 和 CELAP 在實(shí)驗(yàn)過程中的 F1 曲線如圖 7 所示,從圖像可以看出,盡管膠囊網(wǎng)絡(luò)的收斂速度較慢,但實(shí)驗(yàn)的最終結(jié)果表明 CELCN 的性能要明顯優(yōu)于 CELMP 和 CELAP。
實(shí)驗(yàn) CELCN 與 CELMP、CELAP 更詳細(xì)的準(zhǔn)確率、召回率和 F1 值的實(shí)驗(yàn)對(duì)比結(jié)果如圖表 2 所示,其中 CELCN 的準(zhǔn)確率、召回率和 F1 值分別為 77.26%、82.68%和 79.88%,相較于 CELMP 和 CELAP,F(xiàn)1 值分別提升了 3.53%和 3.73%,表明了膠囊網(wǎng)絡(luò)在特征聚類方面的優(yōu)勢(shì)。
為了進(jìn)一步的研究膠囊網(wǎng)絡(luò)帶來的性能提升,本文從數(shù)據(jù)集中抽取一部分多標(biāo)簽關(guān)系數(shù)據(jù)進(jìn)行測(cè)試,實(shí)驗(yàn)的測(cè)試結(jié)果如表 2 所示,其中,CELCN 的準(zhǔn)確率、召回率和 F1 值分別為 43.88%、41.32%和 42.56%,比 CELAP 的 F1 高 0.26%,比 CELMP 的 F1 高 3.91%,進(jìn)一步證明了膠囊網(wǎng)絡(luò)在多標(biāo)簽關(guān)系抽取任務(wù)中的性能優(yōu)勢(shì)。
4 結(jié)語
本文針對(duì)司法領(lǐng)域提出了一種新的司法預(yù)訓(xùn)練模型 CriElectra,然后利用中文通用的人物關(guān)系語料,結(jié)合司法知識(shí)和人工標(biāo)注方法構(gòu)建以被告人、被害人以及作案工具為中心的故意傷害罪關(guān)系抽取數(shù)據(jù)集,提出了 CELCN 模型,很好的解決故意傷害罪關(guān)系抽取語料中一對(duì)實(shí)體多種關(guān)系的情況,為司法領(lǐng)域中文關(guān)系抽取研究提供了技術(shù)基礎(chǔ)。在未來的工作中,將基于本文中 CELCN 的研究方法,進(jìn)一步開展多罪名的關(guān)系抽取研究。
論文指導(dǎo) >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >