2021-4-9 | 生物醫學論文
本文作者:馬瑞民 馬民艷 單位:東北石油大學數據庫理論與技術科研室
生物醫學的快速發展,產生了大量的生物醫學數據。這些生物醫學數據有的是以結構化的形式存在于數據庫中,例如基因序列、基因微陣列實驗數據和分子三維結構數據等;有的生物醫學數據以非結構
化的形式被記載在各種生物醫學文獻中。從生物醫學文獻中發掘出隱含的生物醫學知識,是生物醫學信息抽取的重要意義所在。生物醫學命名實體識別是生物醫學信息抽取的一項重要基本任務之一,它
主要是從醫學文獻中發現基因、蛋白質、DNA、RNA等生物實體。生物醫學命名實體識別的研究具有一定的艱巨性,主要是因為生物文獻中實體命名不規范、相同的詞或者短語表示不同類別命名實體等,
給研究帶來了一定的困難。
目前,生物醫學實體識別的方法主要有基于字典、基于規則和基于機器學習的方法。生物醫學命名實體識別研究初期,最常使用的是基于字典的方法。如Krauthammer等[1]利用DNA和蛋白質序列比較工具
BLAST識別生物醫學命名實體。上述方法的優點是簡單實用,但由于新的生物醫學命名實體不斷出現,所以基于字典的方法對于自由文本的生物醫學命名實體識別效果不佳。Olsson等[2]提出了基于規則
的方法識別生物醫學命名實體,F值達到了67%。與基于詞典的方法比較,基于規則方法的識別性能有所增強,但它需花費大量人工勞動、且可移植性差。基于機器學習的方法可以判別生物醫學命名實體
數據庫中未包含的實體,方法較為靈活。該方法對訓練數據規模、質量以及特征選取等方面的因素具有很強依賴性,所以,此方法對于生物醫學命名實體識別性能提高的研究具有很強挑戰性。本文將采
取有效的機器學習算法,結合多種策略,以期提高生物醫學命名實體識別的識別性能。
1算法
目前主要應用在生物醫學命名實體的機器學習方法有多種。文獻[3~6]中分別提出基于隱馬爾可夫模型、決策樹、支持向量機、最大熵等方法,這些方法把詞性、詞形等特征融入到機器學習模型中,利
用訓練得到的學習模型從生物醫學文本集合中識別出指定類型的名稱。雖然取得了一定成果,卻也具有一定的不足,如識別性能不高、多種條件約束、識別策略單一化等。條件隨機域機器學習算法在自
然語言處理領域中有著非常顯著的優勢,目前已成功應用到詞性標注、語塊識別和新聞領域的命名實體識別中,且表現出了非常好的效果。該模型的特性表明它非常適用于生物醫學領域的命名實體識別
研究。鑒于此,本文采用條件隨機域算法對生物醫學命名實體識別進行研究。條件隨機域(ConditionalRandomFields,CRFs)是Lafferty等人于2001年提出來的[7]。它是計算具有無向圖G結構的隨機變
量集合在給定隨機變量集合o下的條件概率P(s|o)。將CRFs應用于生物醫學命名實體識別中,則o表示一個句子的單詞序列,s表示相應的狀態序列,標注的過程就是根據已知的單詞序列推斷出最有可能
的狀態序列,即P(s|o)的最大值。本文實驗使用了一階線性CRF,如下式:(公式略)。條件隨機域模型允許在觀察序列上的任意依賴關系,并且特征不需要一定是一個完整的狀態或觀察值,可以用較
少的訓練數據訓練出模型,所以說,CRFs擁有了一般的最大熵模型的所有優點。
2實驗
2.1特征選擇
生物醫學命名實體識別中常用的特征有以下幾種,一是局部特征,包括文本符號本身的特征和文本符號局部的上下文特征及其周圍的詞或符號的特征;二是全文特征,即文本符號在整個篇章中的上下文
特征;三是外部資源特征,比如說使用一些外部資源詞典等。本文研究中,使用了如下特征:(1)單詞本身:把單詞本身作為一個識別特征。(2)詞形特征:由于生物醫學命名實體一般含有數字、大
寫字母和特殊符號等,將這些簡單的表面特征定義為詞形特征。本實驗將大寫字母都用‘A’替換,數字用‘0’替換,非英語字符用‘-’替換,小寫字母用‘a’替換。(3)標準化拼寫特征:某些同一
類的生物醫學命名實體,它們拼寫方式很類似,如:IL-2andIL-4。用簡單的方法標準化所有類似的詞。如Kappa-B規范化為‘Aaaaa_A’,再將連續的相同的字符縮短為一個字符,即為‘Aa_A’。這樣做
能夠將拼寫相似的生物醫學命名實體提取的特征保持一致。(4)詞性特征:生物醫學命名實體的大寫字母特征對其識別性能貢獻不大,并且生物醫學命名實體多是描述性的名稱而且名稱很長,所以,詞
性特征對識別生物醫學命名實體邊界很有幫助。本系統使用了GENIAtagger2.0.2[8]詞性標注器,GENIAtagger使用了WallStreetJournal語料和PennBioIE語料訓練,因此GENIAtagger在生物醫學領域文本
中詞性標注具有較高性能。(5)語塊特征:系統使用GENIAtagger2.0.2進行語塊標注作為特征。(6)關鍵詞特征:利用統計方法在訓練集中統計出高頻的生物醫學命名實體關鍵詞,將這些詞是否出現
作為特征。(7)別名特征:將已識別出的生物醫學命名實體存放在一個列表中,當系統遇到一個候選詞時,生物醫學命名實體識別算法就被激活,動態決定該候選詞是否是前面已經識別出來的生物醫學
命名實體列表中詞的別名。別名特征屬于全文特征。(8)特征聯合:將相鄰位置的特征進行聯合,得出新的特征,有助于識別長距離詞。本實驗選擇窗口的大小為(-1,+1)。(9)字典特征:使用了
一些字典資源作為特征加入特征向量空間,有CommonWord詞典、Species詞典、Tissue詞典和EndingsofChemicals詞典[9]等。
2.2縮寫詞識別
現在最常用的生物醫學文獻庫是MEDLINE(MEDLARSONLINE),它是由美國國家醫學圖書館于1966年開始建立的,收錄的文獻總量超過1500萬條。據了解,MEDLINE上42.8%以上的摘要有縮寫詞,平均5~10篇
摘要有一個新出現的縮寫詞,并且縮寫詞出現的增長率逐漸升高。很多縮寫詞具有高度歧義性,它的形成沒有任何規律,所以,提高縮寫詞的識別率對生物醫學命名實體的識別研究至關重要。通常,縮
寫形式經常和它的擴展形式一起出現,并通過括號連接,通常有兩種形式:(1)longform(shortform),(2)shortform(longform)。實際當中大部分是第1種形式,當括號中的詞超過兩個時,就認