摘要:準確地刻畫巖石類型及其結構關系可以為能源礦產勘探、深部結構與構造等研究提供重要信息。目前利用地球物理技術可以通過不同巖石對應的物性參數(如密度、磁化率、電阻率、速度等)之間的差異進行巖性識別,但是不同巖石物性往往存在一定程度的重合,利用單一物性進行巖性識別的結果不夠準確,因此利用多源數據進行巖性識別具有重要的意義。貝葉斯方法屬于統計分類方法,依靠概率進行分類,概率密度的計算依靠樣本屬性之間的相互聯系。基于此,我們將基于自適應核密度估計的貝葉斯概率模型引入到巖性識別中。該方法對于多類不同物性參數具有良好的適應能力,預測的巖性分類結果帶有概率參數,可以存在模糊區間,提供多種巖性分類結果。該方法具有較強可擴展性,可以同時處理參數和非參數信息,使得已知地質信息以及物性參數得到最大化的利用。實驗證明該方法的巖性識別結果較好,相比于傳統高斯算法和固定帶寬核密度估計,自適應帶寬的核密度估計獲得的分類結果更穩定、更準確。
源自物探與化探,2020,04期《物探與化探》(雙月刊)創刊于1979年,由中國國土資源航空物探遙感中心主辦。《物探與化探》主要刊登物探、化探技術在地質找礦和國民經濟建設,生產、科研和教學中的新方法、新技術、新經驗、新產品、新進展、新應用、新成果等。會議簡訊、書訊。獲獎情況:1992年獲地礦部科技期刊評比二等獎; 1997年獲中國地球物理學會50周年慶祝大會(北京)上受到表彰;2000年首屆《CAJ-CD規范》執行評優活動中獲執行獎。
巖性識別是地質研究過程中非常重要的基礎工作,尤其是在近地表以及深部無法直接采樣區的地質研究中,準確地刻畫深部巖石類型及其結構關系,可以為能源礦產勘探、深部結構與構造等研究提供重要的地質信息。因此采用什么數據、什么方法來進行巖性識別是一項極具價值的研究工作。傳統(地表)地質填圖已遠不能滿足深部探測的需要。隨著多源地學數據(地質、地球物理、地球化學、遙感以及鉆井數據等)的獲取、地球物理三維反演技術和三維地質建模的發展,深部巖性識別已成為現實。但目前對多源數據的利用并不充分,尚未有效地利用多種物性參數進行巖性識別。因此,如何利用多源不同類型、屬性地學數據所反映的巖性信息,從高維數據空間準確地進行巖性識別是亟待解決的難題,對深部探測和地學數據融合也具有重要的科學意義。
目前巖性識別主要有直接手段(巖芯、手標本以及薄片鑒定等)和間接手段(重磁、地震、電磁、測井、遙感、地球化學等)。從深部探測來講,鉆井巖芯可能是唯一的巖石標本,但只是點數據,而遙感(面數據)只能探測地表情況,且受地表覆蓋影響大;因此地球物理方法在地下深部巖性識別研究中將發揮重要作用。而物性(密度、磁化率、電導率、縱橫波速度等)是巖性和地球物理場之間的紐帶,因此,通過地球物理反演物性,再聯合其他地質數據進行巖性的識別具有可行性。地震反演是進行巖性識別的有效方法,可以利用地震不同的彈性參數,如利用縱橫波速度、密度[1,2]、波阻抗、振幅、頻率、相位[3,4,5]對目標巖體(流體)進行識別,但是當巖相間的地震響應差別不明顯時,依靠波形的分類結果無法準確刻畫巖性且地震方法成本高。在測井識別巖性方面,可以利用交會圖版[6,7,8,9]或者基于統計、聚類、支持向量機以及神經網絡等技術[10,11,12,13,14]進行巖性識別,測井方法在精度、算法以及技術上都有明顯的優勢,但是只能識別鉆孔附近小范圍內的巖性,難以進行大面積或是沒有鉆孔地區的巖性識別。利用重磁技術識別巖性主要依靠密度與磁化率比值,例如采用交會圖版結合邏輯運算識別巖性[15,16],重磁數據覆蓋面積廣,采樣密度高,容易獲得大規模的巖性識別,但是在無約束情況下,垂向分辨較差,多解性強。
單一的地球物理方法往往很難獲得理想識別結果,因此聯合多個地球物理方法的巖性識別成為主流方式。在多源數據識別巖性方面,對于存在巖性與物性對應關系的模糊區域,以地震反射特征為約束,利用重磁電資料識別了具有密度、磁性和電阻率等特征差異的火成巖巖性[17]。近年來隨著機器學習(machinelearning)的興起,該算法已被廣泛應用于巖性識別。如利用多種地球物理數據基于模糊聚類分析[18]將巖石進行分類識別。利用地球化學數據和地球物理數據對巖性進行多元回歸分析[19,20]或者多準則決策方法識別。利用無監督模糊分區聚類對航空伽馬射線數據與陸地衛星波段數據聯合進行巖性識別[21]。應用受限玻爾茲曼機(restrictedboltzmannmachine)和隨機森林模型到區域尺度多參數地球科學數據集,從而預測斑巖銅金礦床的遠景區域。還有采用隨機森林法(randomforests)和自組織映射技術(SOM,self-organisingmaps)來識別連續的火山單元子類,由于算法只針對部分地球科學或地質參數進行巖性識別,因此無法針對不同類型的參數進行統一處理。雖然各類算法都有改進,但是巖性識別結果唯一,對模糊區間的多種可能性無法準確表述。
理論上講,通過不同地質、地球物理技術可以獲得地下物性結構,如密度結構、速度結構、電阻率結構、磁性結構等,那么如何將這些物性結構轉換為巖性是值得研究的問題,實質上這是一個模式識別問題。通常來講,巖性與物性的對應關系并不總是明確的,在交會圖上存在較大的重疊區域,從而使得基于規則的分類方法難以解決該問題。在前人的研究基礎之上,考慮到貝葉斯方法是非規則分類,該方法依據類的概率、概率密度,并按照某種規則使得分類結果從統計上達到最佳。基于此,筆者提出了基于自適應核密度估計的貝葉斯概率巖性識別方法,完成了從物性到巖性的轉換。該方法具有較強的泛化能力,預測的巖性分類結果帶有概率參數,可以存在模糊區間,提供多種巖性分類結果。該方法具有較強可擴展性,可以有任意數量類型的輸入參數(允許存在缺省參數)以及任意數量的巖性分類輸出。通過實驗對比了傳統的高斯密度、固定帶寬核密度以及自適應帶寬核密度對巖石物性數據判別的效果,說明了該方法具有良好巖性識別效果。
1、基本原理
1.1 貝葉斯分類
貝葉斯算法是基于統計學的基本算法之一,假設各個條件之間相互獨立,可以得到樸素貝葉斯算法。如果我們將巖石的類型表示為c事件,將巖石屬性表示為x事件,巖石類型c和對應屬性x是發生在同一空間的兩個事件,假設某研究區的完整巖石類型c是由兩種巖石類型c1、c2、…、cn構成,c1、c2、…、cn中一個巖石種類出現必然伴隨著某一屬性x的發生,即若x發生,則c必然有一個會發生,根據概率可以得到樣本集的已知各類別ci的先驗概率以及各類條件概率P(x/ci)。對于未知樣本,貝葉斯公式可以計算出待測樣本分屬各類的概率,稱為后驗概率。
使用貝葉斯定理來預測后驗概率最大的類,主要是估計每一類的概率密度函數,通過多元正態分布來建模。樸素貝葉斯分類器基于條件獨立性假設,是概率分類器中最簡單的分類器,在很多情況下具有相當高的分類準確率,因此以高效率和良好的泛化能力而著稱。對于某個測區,已知該地區的物性分布特征(如密度、磁化率、電阻率等)以及部分的巖石樣本,假設屬性之間相互獨立,可以使用貝葉斯分類器來對整個測區的巖石類型進行預測。概率分類器的優點在于在得到分類結果的同時,會對每一種類別進行概率計算,對于巖性的識別而言,可以通過概率或相對概率來人為判定分類結果的可信度而不僅僅依靠算法本身的置信度來決定,小概率區間會提供一個模糊帶,模糊帶的類別區分結果可能不唯一。
貝葉斯分類器通過對每個未知樣點x和每個類ci來估計其后驗概率P(ci/x),即計算未知樣本x屬于ci類巖石的概率,從而選擇最大概率的類作為未知樣本x最終的預測類型。利用貝葉斯定理,后驗概率P(ci/x)可以表示為:
其中:P(x/ci)定義為假設真實類是ci時觀察到x的概率,稱為似然;P(ci)是類ci發生的先驗概率;P(x)指從全部樣本中觀察到x的概率,可以表示為P(x)=∑i=1,kP(x/ci)P(ci)
Ρ(x)=∑i=1,kΡ(x/ci)Ρ(ci)
對于給定的一點x,P(x)是確定的。用fi(x)表示未知樣本x屬于ci類的概率密度,似然用概率密度可以表示為P(x/ci)=2afi(x),其中a表示鄰近x的一個極小區間,因此可以得到后驗概率的計算公式:
由式(2)可知,概率密度函數是影響分類結果的一個重要因素,由于大部分巖石物性參數是基本遵循正態分布的規律,這里考慮了傳統的高斯公式作為概率密度函數,然而樣本本身并不完全遵循正態分布,為了極大地避免由于選定高斯函數的影響,同時考慮使用核密度估計的方法,核密度估計的優點在于核函數的選取對于最終分類結果影響不大,更適用于類正態數據樣本,這會在之后的模型測試中加以驗證。
1.2 自適應核密度估計
核密度估計[22,23]是統計學中用來估計隨機變量的概率密度函數的方法,屬于非參數檢驗方法的一種。核密度估計的基本表達式為:
其中:n表示所有已知樣本的總個數,h表示帶寬,也可以稱為窗寬或滑動參數,x表示隨機樣本,Xi表示第i個已知樣本,K(·)表示核函數。核函數的作用相當于權函數,可以根據距離分配各個樣本點對總體密度估計貢獻的不同程度,常見的有高斯核函數,三角核函數,二次核函數等多種表達形式,由于大部分的物性分布都遵循正態分布的原則,因此這里采用高斯核函數,即
值得一提的是,在大樣本量的條件下,核密度估計中核函數K的選取對于概率密度的影響是很小的,可以忽略的[24]。
核密度帶寬的選擇是得到最佳估計結果的關鍵。固定帶寬是比較常見的方法[25,26]。不同的帶寬選取,會對概率密度函數產生不一樣的影響,由于概率密度函數存在一個必然性,即概率密度之和為1,因此,不同的帶寬在影響曲線光滑程度的同時,也會對峰值產生影響,曲線越平滑,峰值就會越低,曲線越抖,峰值就會越高。帶寬選擇的基本思想是基于最小平方差,根據積分均方誤差最小,求出最優帶寬。
圖1展示了對于1200組完全正態分布的樣本,選取不同帶寬得到的概率密度函數曲線圖,可以得到,對于該組數據而言,下列所選帶寬的結果擬合程度最高的是h=5時,當所選帶寬h過大,會造成核密度估計曲線過于平滑,從而失去應有的特征細節。帶寬h過小,會導致核密度估計曲線光滑性差,過于粗糙,會產生過擬合的問題。對于高斯核函數,最優帶寬為:
巖石的物性參數往往存在較大的差異,而每種參數的誤差范圍也不同,因此實際操作中固定帶寬的方法可能并不適用于巖性的識別,加上在實際采樣中,受限于各種地理和人為因素的影響,無法保證樣本的稀疏程度一致,對于不同質量的樣本,無法用同一帶寬來進行密度估計,需要對不同稀疏度的樣本分別討論帶寬,因此相比于固定帶寬法,滑動變帶寬更能滿足巖性預測的要求。令帶寬值隨著數據的密度變化自動進行適當的調整,實現滑動變帶寬的方法,主要是基于積分均方誤差,通過計算每個點的最優帶寬值,得到變帶寬函數h(x)。針對滑動窗口的實現過程,于傳強等[27]給出了詳細的推導過程,關于滑動變帶寬的算法流程如下:
圖1不同帶寬下概率密度函數曲線
第一,根據固定帶寬的經驗公式,選擇樣本組的最優固定帶寬hopt以及對應的核密度估計函數fopt(x),
第二,根據給定的估計點,求取優化后的帶寬
其中c=0.375π-0.5h−5opt
第三,優化后的核密度估計函數記為
上述計算的帶寬在數據質量相對較好的情況下往往會出現過擬合現象,反而結果不盡如人意,因此在實際的分類過程中,當計算得到固定帶寬以及優化后的帶寬后,需要對帶寬的差值進行判定,對于二者相差不大的情況(差值需要根據樣本的數量和質量人為給定),采用優化前的帶寬。將優化后的核密度估計函數作為貝葉斯模型的概率密度函數,針對某一未知樣本,可以得到該樣本歸屬于每一類的概率密度,通過比較得到最大概率類別作為預測的類。
2、模型測試
本次實驗選取密度、磁化率和電阻率作為分類依據,測區內巖石類型為板巖、片麻巖和花崗巖,模型具體參數見表1,從表中可以看出,整個模型的密度變化較小,但是相比于其他兩種巖石的密度,花崗巖的密度范圍變化更小,主要集中在2600kg/m3左右,可以作為劃分花崗巖的物性依據。圖2、3分別是模型區內的巖石物性分布情況以及該模型下的巖石分布示意圖,為了對比分類器模型的準確率、穩定性以及計算復雜度,從所有的樣本中選取不同位置、不同數據量的樣本作為訓練集和測試集進行分類,判定分類結果。
圖2模型物性
a—模型密度;b—模型磁化率;c—模型電阻率
圖3巖石分布
該模型共有8690個樣本點,分別選取250、435、870個點作為訓練樣本,其他點作為測試樣本,圖4~9分別為不同訓練樣本的物性參數交互圖以及分類結果,表2是關于不同訓練樣本錯誤率統計表。
對照紅色散點和灰色的巖性邊界可以看出,識別錯誤的樣本集中分布在邊界的低概率區,而巖性邊界可以看作整個區域的模糊區間,因此概率密度圖在低概率區刻畫了整個區域的模糊區,對比圖5、圖7、圖9的概率圖,針對同一訓練樣本,核密度估計算法對于模糊區的刻畫整體優于傳統的高斯算法估計模型;對于同一算法下的不同訓練樣本,傳統高斯算法的低密度帶并沒有表現出由于訓練樣本增加其結果得到改善,而隨著訓練樣本的增加,自適應帶寬核密度估計算法的概率圖上對于分類結果正確區域的低概率帶有了明顯改善。
圖4250點訓練樣本物性參數交互圖
圖5250點訓練樣本分類結果
a~f分別表示對于250個訓練樣本點的傳統高斯分類、固定帶寬的核密度估計、自適應帶寬的核密度估計的貝葉斯分類結果以及其對應的概率分布
圖6435點訓練樣本物性參數交互圖
圖7435點訓練樣本分類結果
a~f分別表示對于435個訓練樣本點的傳統高斯分類、固定帶寬的核密度估計、自適應帶寬的核密度估計的貝葉斯分類結果以及其對應的概率分布
圖8869點訓練樣本物性參數交互圖
從表2的錯誤率上而言,在同樣的訓練樣本下,基于自適應核密度估計的貝葉斯概率模型明顯優于其他兩類模型。由此可知,貝葉斯概率密度模型對于深部巖性識別的方法是有效可行的,而基于自適應核密度估計的貝葉斯概率模型相比于其他概率密度模型而言效果相對較好。
通過測試不同訓練樣本對于分類結果的影響,最終可以得到針對該模型,訓練樣本每類都少于40個時便無法進行合理的巖性識別,當然并非訓練樣本的數量越多越好,樣本質量對于識別結果也有著決定性作用。
通過對比3種概率密度方法得到的分類結果可知,基于自適應帶寬的貝葉斯概率模型下的分類錯誤率是相對較低的且在模糊區有一個明顯的低概率帶,因此,模型二將針對模型一中435點訓練樣本在自適應帶寬下的測試樣本進行概率差下的統計分析。
圖9869點訓練樣本分類結果
a~f分別表示對于869個訓練樣本點的傳統高斯分類、固定帶寬的核密度估計、自適應帶寬的核密度估計的貝葉斯分類結果以及其對應的概率分布
若兩種類型巖石的預測概率差在擬定的差值之內,就認為該未知樣本屬于這兩類巖性的概率相同,對于3種巖性也同樣適用,對于該模型而言,若3種巖性的概率差都在擬定的差值內,則認為無法對該樣本進行巖性識別,選擇更大的概率差,意味著模型的容錯率降低,同時,識別類型唯一的樣本可信度也隨之變大,針對不同的概率差,預測結果不同。
圖10為概率差在10%、20%、30%、40%、50%、60%概率差下的巖性預測結果,白色區域表示3種巖性被認為是等概率的情況,即無法識別的區域,同時,淺色區域代表可能為兩種巖性。在無法進行準確的巖性識別的區域進行人工識別或者二次識別,避免了機器學習在巖性識別過程中由于算法本身的局限性,導致預測結果唯一且無法進行人工推斷可信度的問題,在機器學習和人工識別中找尋一個平衡,發揮二者優勢,在提高巖性識別效率和準確度的同時使得預測結果明朗可操作。
圖10預測分類結果
3、結論與建議
筆者將基于自適應核密度估計的貝葉斯概率模型應用到巖性識別中,該方法的優勢在于,對于有一定重合區域的物性參數,可以有效地進行未知區域的巖性識別,提高計算的精度和效率,將多種物性參數進行合理的處理解釋,提高數據利用率,通過各個數據之間的相互作用,最終獲得巖性識別結果。
從本文的模型可以看出,基于自適應核密度估計的貝葉斯概率模型能夠較好地刻畫未知地區巖性的類別和輪廓,對于模糊區也可以較好地進行判定。事實上,該方法并不局限于以上幾種參數,對于其他的物性參數也可以進行同樣的處理,識別結果的精度也依靠于更多類型的物性參數和更好質量的訓練樣本。
參考文獻:
[1]LortzerGJM,楊謙,譯.巖性反演的完整方法第一部分:理論[J].國外油氣勘探,1993,5(4):414-428.
[2]田玉昆,周輝,袁三一.基于馬爾科夫隨機場的巖性識別方法[J].地球物理學報,2013,56(4):1360-1368.
[3]靳軍,劉樓軍,邵雨,等.綜合地球物理方法識別準噶爾盆地的巖性圈閉[J].石油地球物理勘探,2002,37(3):287-290,299.
[4]洪忠,張猛剛,蘇明軍.應用地震波形分類技術識別巖相的適用性和局限性[J].物探與化探,2013,37(5):904-910.
[6]宮清順,黃革萍,孟祥超,等.三塘湖盆地火山巖巖性識別方法[J].中國石油勘探,2012,17(3):37-41,6.
[7]徐德龍,李濤,黃寶華,等.利用交會圖法識別國外M油田巖性與流體類型的研究[J].地球物理學進展,2012,27(3):1123-1132.
[8]李偉才,姚光慶,黃銀濤,等.文昌13-1油田低阻油層測井巖性識別方法研究[J].石油天然氣學報,2012,34(12):81-85,7.
[9]范宜仁,黃隆基,代詩華.交會圖技術在火山巖巖性與裂縫識別中的應用[J].測井技術,1999(1):53-56,64.
[10]田艷,孫建孟,王鑫,等.利用逐步法和Fisher判別法識別儲層巖性[J].勘探地球物理進展,2010,33(2):126-129,134.
[11]王輝,黎明碧,唐勇,等.基于小波神經網絡的ODP1148A井巖性預測[J].地球物理學進展,2014,29(1):392-399.
[12]吳施楷,曹俊興.基于連續限制玻爾茲曼機的支持向量機巖性識別方法[J].地球物理學進展,2016,31(2):821-828.
[13]安鵬,曹丹平.基于深度學習的測井巖性識別方法研究與應用[J].地球物理學進展,2018,33(3):1029-1034.
[15]付光明,嚴加永,張昆,等.巖性識別技術現狀與進展[J].地球物理學進展,2017,32(1):26-40.
[16]嚴加永,呂慶田,陳向斌,等.基于重磁反演的三維巖性填圖試驗——以安徽廬樅礦集區為例[J].巖石學報,2014,30(4):1041-1053.Y
[17]劉云祥,何展翔,張碧濤,等.識別火成巖巖性的綜合物探技術[J].勘探地球物理進展,2006,29(2):115-118,5.
[27]于傳強,郭曉松,張安,等.基于估計點的滑動窗寬核密度估計算法[J].兵工學報,2009,30(2):231-235.
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >