提要 有孔蟲個體微小、數(shù)量眾多、地理分布廣、演化迅速, 是記錄海洋沉積環(huán)境的重要載體, 在海相生物地層劃分和對比中具有十分重要的作用。因有孔蟲屬種眾多, 傳統(tǒng)的屬種鑒定需要經(jīng)驗豐富的專業(yè)人員進行人工鑒定且耗時較長, 此外人工鑒定古生物面臨人才匱乏和工作量大等問題。卷積神經(jīng)網(wǎng)絡(luò)在計算機視覺領(lǐng)域的應(yīng)用可較好的解決上述問題。利用古生物專家對中新世浮游有孔蟲化石標注為指導(dǎo), 根據(jù)有孔蟲化石不同方向的視角分類, 結(jié)合卷積神經(jīng)網(wǎng)絡(luò)算法, 開發(fā)了有孔蟲化石圖像識別系統(tǒng)。研究發(fā)現(xiàn), 通過有孔蟲化石腹視、緣視和背視角度分類, 采取兩級分段式鑒定算法對中新世浮游有孔蟲屬一級進行識別, 屬一級鑒定準確率達到 82%左右。
關(guān)鍵詞 自動鑒定 卷積神經(jīng)網(wǎng)絡(luò) 浮游有孔蟲 古環(huán)境 中新世
熊連橋; 李建平; 謝曉軍; 岳翔; 呼和; 方培岳; 白海強; 張東, 古生物學(xué)報 發(fā)表時間:2021-11-24
1 前 言
古生物記錄著地層形成的年齡、氣候、地理和地貌等關(guān)鍵信息,在判斷生油母質(zhì)、油氣生成和保存時代以及沉積環(huán)境分析中扮演重要角色。準確識別古生物有利于確定地層年齡, 識別古環(huán)境。目前化石鑒定的主要方法是專業(yè)人員通過觀察標本的外部形態(tài)和內(nèi)部結(jié)構(gòu), 查找文獻、工具書、化石圖冊等相關(guān)研究資料, 比照圖版并結(jié)合自身經(jīng)驗, 鑒定化石的屬種。但隨著古生物學(xué)研究和油氣勘探需求的快速發(fā)展, 人工鑒定化石效率低下等問題日漸凸顯: 1)古生物樣品繁多, 鑒定效率低下; 2)專業(yè)的古生物人才儲備不足; 3)存在人為的鑒定錯誤等問題(殷鴻福, 1994; 沙金庚, 2006; 夏菁等, 2013)。論文選取在中國近海油氣勘探中應(yīng)用廣泛的浮游有孔蟲化石為研究對象, 以中新統(tǒng)為目標層位, 在古生物專家鑒定的基礎(chǔ)上, 利用基于兩級分段式算法的神經(jīng)網(wǎng)絡(luò)助力古生物研究數(shù)字化、智能化, 減輕古生物鑒定人員的工作量。
2 化石自動鑒定研究現(xiàn)狀
關(guān)于生物自動鑒定系統(tǒng), 較為成功并獲得了廣 泛 商 業(yè) 應(yīng) 用 的 是 細 菌 的 自 動 鑒 定 系 統(tǒng) ——Biolog Microstation (馮瑞華等, 2000)。它利用細菌的代謝指紋圖譜來對細菌進行自動鑒定。在古生物研究方面, 有學(xué)者報道了珊瑚和顆石藻自動鑒定系統(tǒng)。張松林和嚴幼因(1995)通過收集大量的珊瑚化石資料, 建立珊瑚特征檢索表, 將鑒定特征數(shù)值化, 并通過聚類分析實現(xiàn)自動鑒定, 研制了床板珊瑚的自動鑒定系統(tǒng)。顆石藻自動鑒定 系 統(tǒng) SYRACO (Systeme de Reconnaissance Automatique de Coccolithes)是由法國學(xué)者開發(fā)的 (Dollfus and Beaufort, 1999), 并 不 斷 完 善 (Beaufort and Dollfus, 2004; Beaufort et al., 2014)。該系統(tǒng)通過人工智能神經(jīng)網(wǎng)絡(luò)自動識別顆石藻屬種, 并統(tǒng)計顆石藻數(shù)量。蘇翔和劉傳聯(lián)(2008) 利用該系統(tǒng), 對南海西部 2901 柱狀樣中的顆石藻進行自動鑒定, 并與專家鑒定結(jié)果相對比, 獲得了較好的一致性。經(jīng)過訓(xùn)練的 SYRACO 系統(tǒng)可以鑒定第四紀以來 14 個主要顆石藻種類, 并進行定量統(tǒng)計。
20 世紀 80–90 年代, 郝詒純等(1989)和徐涵秋、郭雯(1990)等學(xué)者在國內(nèi)率先開展了計算機對古生物的鑒定研究工作; Liu 等(1994)利用專家知識系統(tǒng)開展了浮游有孔蟲自動分類研究。 Ranaweera 等(2009)利用圖像映射進行標準化, 使用極大團算法分類提出了對有孔蟲的半自動鑒定方法。21 世紀, 隨著深度學(xué)習理論的提出和計算機設(shè)備的發(fā)展, 卷積神經(jīng)網(wǎng)絡(luò)算法得到快速發(fā)展, 尤其在計算機視覺識別領(lǐng)域取得了顯著成果(Gu et al., 2018); VGG16 算法在有孔蟲圖像識別的多種算法中, 表現(xiàn)最好(Zhong et al., 2017)。基于機器學(xué)習的人工神經(jīng)網(wǎng)絡(luò)技術(shù)鑒定古生物成為未來的發(fā)展趨勢(夏菁等, 2013)。
開展機器學(xué)習需要大量的數(shù)據(jù)輸入。目前, 國內(nèi)尚無相關(guān)科研機構(gòu)具備齊全的中新世浮游有孔蟲化石圖像數(shù)據(jù)庫。同時, 大數(shù)據(jù)、深度學(xué)習需要專業(yè)的古生物專家、專業(yè)研究設(shè)備進行大量標注。有學(xué)者利用卷積神經(jīng)網(wǎng)絡(luò)算法對現(xiàn)代有孔蟲圖像進行了識別(Hsiang et al., 2019), 但針對化石的鑒定研究工作開展較少。有孔蟲種類繁多, 關(guān)于有孔蟲化石圖像自動鑒定研究工作正在逐步開展(岳翔等, 2019)。實現(xiàn)有孔蟲化石自動鑒定的前提和基礎(chǔ)則是構(gòu)建一個符合科學(xué)規(guī)范的有孔蟲化石圖像數(shù)據(jù)庫。只有優(yōu)先完成這個數(shù)據(jù)庫的構(gòu)建, 才可以為人工智能深度學(xué)習提供符合科學(xué)規(guī)范的大數(shù)據(jù), 進而實現(xiàn)有孔蟲化石的自動鑒定。為提高有孔蟲化石鑒定效率, 避免人工鑒定造成的誤差, 迫切需要開展人工智能有孔蟲圖像識別研究工作。
3 基于兩級分段式的 CNN 算法
深度學(xué)習是一組復(fù)雜的機器學(xué)習算法的統(tǒng)稱, 其網(wǎng)絡(luò)結(jié)構(gòu)是以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ), 增加多層卷積層和池化層; 所謂“深度”是指其隱藏層的個數(shù)非常多(Dong and Li, 2011)。深度學(xué)習在計算機視覺方 面 取 得 了 巨 大 的 成 功 。 卷 積 神 經(jīng) 網(wǎng) 絡(luò) (Convolutional Neural Network, 簡稱 CNN)是深度學(xué)習的一種重要算法。卷積神經(jīng)網(wǎng)絡(luò)是在 BP 神經(jīng)網(wǎng)絡(luò)的改進, 與 BP 類似, 采用了前向傳播計算輸出值, 反向傳播調(diào)整權(quán)重和偏置(周飛燕等, 2017)。深度學(xué)習應(yīng)用的一般步驟包括: 準備訓(xùn)練樣本、數(shù)據(jù)處理、模型訓(xùn)練與評估、模型預(yù)測, 詳細步驟見下文。
3. 1 圖像數(shù)據(jù)庫建立
首先從文獻資料中收集有孔蟲圖像作為訓(xùn)練樣本。部分類別的有孔蟲化石, 文獻呈現(xiàn)的圖像較少, 則需要重新拍攝圖像。研究人員可根據(jù)從地層中分析獲得的有孔蟲化石標本, 拍攝掃描電鏡圖像。對收集的有孔蟲圖像進行增強及預(yù)處理, 其中, 數(shù)據(jù)預(yù)處理包括原始圖像(圖 1-A) 背景色統(tǒng)一、規(guī)格統(tǒng)一、剔除無效區(qū)域、調(diào)節(jié)圖像亮度(圖 1-B); 數(shù)據(jù)增強是利用圖像(圖 1-C)的旋轉(zhuǎn)(圖 1-D)、翻轉(zhuǎn)(圖 1-E)等操作擴大樣本數(shù)量; 通過以上操作保證有孔蟲識別特征清晰。每一張圖像由專業(yè)人員進行鑒定, 指明有孔蟲屬種鑒定依據(jù), 總結(jié)屬種分類方法, 編制分類規(guī)則。
本研究選取了中新世浮游有孔蟲掃描電鏡圖像 3600張(附表1), 涵蓋典型有孔蟲種類36屬95種, 占比 54%, 可對地質(zhì)分析需求提供較大參考。對 3600 張圖像隨機選取 30%作為驗證集。經(jīng)鑒定, 36 屬浮游有孔蟲生長于正常鹽度水體, 有孔蟲生長于開放大洋至混合層水體環(huán)境, 多見于低緯度熱帶至溫帶地區(qū)。
3. 2 兩級分段式 CNN 算法效果對比
卷積神經(jīng)網(wǎng)絡(luò)(CNN)算法是主要用于圖像分類的深度學(xué)習模型, 在 BP 神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上添加卷積層和池化層, 卷積神經(jīng)網(wǎng)絡(luò)模型應(yīng)用流程如圖 2 所示。卷積層, 即用卷積核對矩陣進行濾波, 目的是聚焦矩陣的局部特征, 隨著層數(shù)加深得到抽象度更高的特征; 池化層可以有效縮小矩陣的尺寸, 顯著減少網(wǎng)絡(luò)中參數(shù)的個數(shù), 也有防止過擬合的作用(周飛燕等, 2017)。
在不同級別的古生物鑒定中, 其所要求的特征多寡和主次是不同的。例如有孔蟲屬一級和種一級的分類標準所用到的特征不同。以新近紀中新世的浮游有孔蟲為例, 這一時期出現(xiàn)的浮游有孔蟲屬一級鑒定特征可以分為以下內(nèi)容: 殼壁類型、旋卷類型、緣脊、主口孔位置、主口孔裝飾、主口孔形狀、次生殼、小泡、補充口孔、房室形狀和最后一圈房室個數(shù)。此外, 有孔蟲化石的鑒定特征常常是描述性的, 需要將這一類非數(shù)值化的信息轉(zhuǎn)變?yōu)橛嬎銠C可識別的參數(shù)信息。因此需要專業(yè)人員整理屬種分類的規(guī)則, 提取鑒定需要的特征, 為人工智能的學(xué)習打下基礎(chǔ)。
對所有圖像剔除無效區(qū)域, 調(diào)節(jié)圖像亮度; 對樣品數(shù)量較少的圖像, 采取圖像翻轉(zhuǎn)、旋轉(zhuǎn)等操作擴大樣本數(shù)量。其次, 根據(jù)給出的有孔蟲鑒定特征, 發(fā)現(xiàn)主要差異在主孔口、殼壁類型等。根據(jù)專家經(jīng)驗, 不同視角, 有孔蟲圖像包含的信息不同。以異樣泡口蟲(Catapsydrax dissimilis)為例, 腹視角度(圖 3-A)具有更多且更為關(guān)鍵的鑒定特征, 如殼壁類型、主口孔位置、臍部具有小泡以及 4 個板下輔助口孔、等, 而背視(圖 3-B)和 緣視(圖 3-C)角度能識別的鑒定信息較少, 除去和腹視角度共有的鑒定特征外, 異樣泡口蟲從背視僅能獲取其房室發(fā)育的早期階段, 緣視僅可以提供螺旋程度的高低, 但這些特征并不是關(guān)鍵的鑒定特征, 特別是對于屬一級來說。因此, 根據(jù)有孔蟲圖像反映的鑒定信息多寡, 可對比傳統(tǒng) CNN 算法(不分視角)和兩級分段式算法鑒定效果。
1) 不分視角進行圖像鑒定
VGG16 是獲得 2014年的ImageNet 圖像分類挑戰(zhàn)賽亞軍的模型(陳英義等, 2019), 利用 VGG16 模型對有孔蟲化石圖像不分視角直接進行鑒定。
模型設(shè)置為: (1)保留 VGG16模型的卷積模塊, 去掉全連接層; (2)設(shè)置 VGG16 保留模塊節(jié)點在模型訓(xùn)練時保持不變; (3)模型再加入兩層卷積+一層全連接+Softmax, 其中卷積核大小是 3×3, padding 設(shè)置為“same”, 激活函數(shù)為 Leaky ReLU, 全連接層神經(jīng)元個數(shù)為 256。經(jīng)過訓(xùn)練, 驗證集屬一級鑒定準確率為 80%。
2) 分視角進行圖像鑒定
選取腹視、背視兩個角度進行樣本創(chuàng)建。樣本創(chuàng)建的依據(jù)主要是人工判斷, 主要特征也是集中在這兩個角度。根據(jù)腹視模型的鑒定結(jié)果, 對容易混淆的屬進行合并, 使用腹視角度進行粗分; 再使用背視角度對合并的屬進行細分。根據(jù)中新世浮游有孔蟲屬一級識別特征, 首先將特征容易識別的合并為 A組, 其他特征容易混淆的再分別劃分組別, 共劃分為 7 個組。其中, A 組為容易識別的其他有孔蟲屬, B–G 等 6 組包含多個屬(表 1)。最后通過兩級分段式鑒定算法對各組進行圖像鑒定(圖 4), 得到有孔蟲圖像的屬一級分類結(jié)果。
模型設(shè)置: (1)以兩個卷積+一個池化作為一個模塊, 卷積層的卷積核數(shù)分別為 256 和 128, 卷積核大小為 3×3, padding 設(shè)置為“same”, 激活函數(shù)為 Leaky ReLU, 池化層的 Poolsize 為(2, 2), strides 為(2, 2); (2)以 5 個模塊+兩層全連接 +Softmax 作為通用卷積網(wǎng)絡(luò), 其中全連接層的神經(jīng)元個數(shù)為 256 和 128, 激活函數(shù)為 Leaky ReLU。模塊之間以輸入輸出的方式連接, 即上一個模塊的輸出即為下一個模塊的輸入, 模型的優(yōu)化函數(shù)設(shè)置為 Adamax, 學(xué)習率為 0.001, batch size 設(shè)置為 32, 迭代 100 次; 經(jīng)過試驗探索, 在當前數(shù)據(jù)樣本規(guī)模下, 以 5 個模塊組成網(wǎng)絡(luò)的效果最優(yōu)(圖 5)。經(jīng)過訓(xùn)練, 模型屬一級鑒定準確率能達 82% 左右, 具體每一屬的預(yù)測準確率見表 2 所示。
通過實驗可以看出分段鑒定算法在合理分組的情況下, 鑒定準確率優(yōu)于 VGG16 算法的準確率。VGG16 算法適用于大樣本的應(yīng)用場景, 而兩級分段式鑒定算法更適用于有孔蟲鑒定這類小樣本應(yīng)用場景。兩級分段式鑒定算法的思路是分角度鑒定, 根據(jù)屬的特點選擇合適的角度, 用專家經(jīng)驗解決樣本數(shù)量不足的問題。通過兩級分段式自動鑒定技術(shù), 在保證化石鑒定準確率的前提下, 極大提高了鑒定效率, 可為油氣勘探及時提供浮游有孔蟲含量與古水深的關(guān)系(Smith, 1955; van der Zwaan et al., 1990; 李學(xué)杰等, 1994), 保障油氣勘探的時效性。
4 結(jié) 論
1) 卷積神經(jīng)網(wǎng)絡(luò)能有效識別中新世浮游有孔蟲類別。
2) 采用分視角, 兩級分段式鑒定算法能將中新世浮游有孔蟲屬一級鑒定準確率提高到 82.1%。
3) 計算機批量自動鑒定的有孔蟲屬種類別可用于化石組合特征分析, 滿足油氣勘探階段對沉積古環(huán)境的研究需求。
論文指導(dǎo) >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >