要 機(jī)采籽棉雜質(zhì)分類檢測為調(diào)整棉花清理機(jī)械加工參數(shù)和工序提供參考依據(jù),對提升皮棉品質(zhì)具有重要意義。但由于籽棉棉層分布不均勻,使得圖像檢測難度增大,使用傳統(tǒng)的檢測方法無法有效檢測各類雜質(zhì)。采用高光譜成像方法對機(jī)采籽棉中的棉葉、棉枝、地膜和鈴殼(內(nèi)外)五種雜質(zhì)進(jìn)行分類判別檢測。首先采集120個(gè)機(jī)采籽棉樣本的高光譜圖像,選取感興趣區(qū)域獲取平均光譜曲線。發(fā)現(xiàn)由于物質(zhì)構(gòu)成的差異,不同雜質(zhì)體現(xiàn)出不同的吸收和反射特性,不同種類物質(zhì)之間的光譜差異大于同類物質(zhì)。對提取的平均光譜曲線進(jìn)行主成分分析(PCA),結(jié)果顯示棉花、殘膜和鈴殼外與其他三類相比,有較好的聚集性和可分性,但是棉葉、鈴殼內(nèi)和棉枝三類相互疊加在一起,空間分布存在嚴(yán)重交叉重疊。以提取的平均光譜曲線為訓(xùn)練樣本,選擇線性判別分析(LDA)、支持向量機(jī)(SVM)和神經(jīng)網(wǎng)絡(luò)(ANN)三種分類判別算法,對算法參 數(shù) 進(jìn) 行尋優(yōu),并建立機(jī)采籽棉雜質(zhì)分類判別模型。其中,經(jīng)過 LDA 模型降維后的樣本空間較PCA 表現(xiàn)出了更好的聚集性和可分性,采用正則化防止過擬合,得到訓(xùn)練集準(zhǔn)確率為86.4%,測試集準(zhǔn)確率為86.2%;SVM 模型的參數(shù)尋優(yōu)結(jié)果為C=105,g=0.1,其訓(xùn)練集準(zhǔn)確率為83.42%,測試集準(zhǔn)確率為83.40%;ANN 模型參數(shù)尋優(yōu)得到隱含層數(shù)和神經(jīng)元個(gè)數(shù)分別為2和17,訓(xùn)練集準(zhǔn)確率為82.9%,測試集準(zhǔn)確率為81.8%。對三種模型的分類效果和檢測用時(shí)進(jìn)行比較,LDA 模 型 結(jié) 果 最 優(yōu)。通過對高光譜圖像進(jìn)行像素等級分類判別,結(jié)果顯示棉花識別效果較好,植物性雜質(zhì)都被有效檢測,但是地膜和棉花存在誤識別,分類效果與雜質(zhì)光譜的分類判別模型結(jié)果一致。因此,采用高光譜成像技術(shù)可以快速、無損的檢測和識別籽棉雜質(zhì),為棉花加工裝備提供反饋參數(shù),對棉花加工機(jī)械化和智能化有重要意義。
關(guān)鍵詞 機(jī)采籽棉;雜質(zhì)檢測;高光譜成像;分類判別
常金強(qiáng); 張若宇; 龐宇杰; 張夢蕓; 扎亞, 光譜學(xué)與光譜分析 發(fā)表時(shí)間:2021-11-11
引 言
近年來棉花全程機(jī)械化生產(chǎn)比例增加,機(jī)采籽棉需要在后續(xù)加工過程中進(jìn)行多道清理工藝,但是清理機(jī)械會對棉花纖維造成損失,降低加工所得皮棉的 品 質(zhì),影響最終產(chǎn)品價(jià)格和經(jīng)濟(jì)效益。因此對棉花雜質(zhì)進(jìn)行 檢 測,并將雜質(zhì)進(jìn)行分類判別,為調(diào)整棉花清理機(jī)械加工參數(shù)和工序提供參考依據(jù),對提升皮棉品質(zhì)具有重要實(shí)際生產(chǎn)價(jià)值和意義。
由于皮棉中異纖含量對價(jià)格影響較大,國內(nèi)的研究主要集中在異性纖維檢測[1-2]。張 志 峰 等[3]提出了一種基于改 進(jìn)的自適應(yīng)迭代閾值法皮棉疵點(diǎn)快速檢測方法;張林等[4]采用LED與線激光的雙光源一次成像方法,可以檢測出各種顏色的異 性 纖 維;張 成 梁 等[5-6]、王 昊 鵬 等[7]提取機(jī)采籽棉可見光圖像中雜質(zhì)的顏色、形狀和紋理特 征,對各類植物雜質(zhì)進(jìn)行分類檢測;倪超等[8]采用深度學(xué)習(xí)方法對短波近紅外高光譜圖像中的地膜進(jìn)行檢測。
國外的研究主要集中在植物性雜質(zhì)的檢測,Wang等[9]采用基于自動視覺檢測系統(tǒng)的偽異性纖維檢測方法,提高了棉花中異性纖維 的 分 類 精 度。Fortier等[10]建立棉花中植物雜質(zhì)的近紅外光譜庫,進(jìn)行雜質(zhì)光譜分類識別。Li等[11-15]基于高光譜成像技術(shù),采 用 反 射、透射和熒光等成像方式,應(yīng)用降維、特征波段選擇、分類判別算法等分析方 法,對 皮 棉中多種植物和異纖雜質(zhì)進(jìn)行檢測。
上述研究對象主要是皮棉,由于皮棉經(jīng)過雜質(zhì)清理和軋花去籽處理,雜 質(zhì) 含 量 小,棉層均勻易于圖像中雜質(zhì)的檢測;而機(jī)采籽棉中不僅含有較多雜質(zhì),且棉籽導(dǎo)致棉層不均勻,使得圖像檢測難度增大,使用傳統(tǒng)的檢測方法無法有效檢測各類雜質(zhì)。
基于高光譜成像檢測技術(shù),根據(jù)棉花和各類雜質(zhì)的光譜特征,針對機(jī)采籽棉中存在的植物和殘膜雜質(zhì)建立分類判別模型;并充分利用光譜圖像的空間信息,實(shí)現(xiàn)對機(jī)采籽棉各類雜質(zhì)的像素等級分類判別,為棉花加工設(shè)備提供快速信息反饋。
1 實(shí)驗(yàn)部分
1.1 樣本的制備
共取樣籽棉10kg,其中籽棉取自棉花加工企業(yè),地 膜取自采收后的棉花地。將籽棉和雜質(zhì)手動混合均勻,每 個(gè) 樣本(30±0.5)g,使用電子天平稱重(量 程 1000g,分 度 值0.01g),共120個(gè)籽棉樣本。樣本中檢測的雜質(zhì)有棉葉,棉枝,鈴殼(內(nèi)和外)和地膜共5種雜質(zhì),如圖1所示。
1.2 高光譜成像系統(tǒng)和圖像采集
高光譜 圖 像 采 集 系 統(tǒng)如圖 2 所 示,由 成 像 光 譜 儀(ImspectralV10E-QE,F(xiàn)inland)、CCD 相 機(jī) (C8484-05G,HamamatsuPhotonics,Japan)、鏡 頭、光 源(150 W 鹵 素 燈,China)、電動位移 平 臺(PSA200-11-X,Zolix)和 電 動 位 移 平臺控制器(CS300-1A,Zolix)、暗 箱、PC 計(jì) 算 機(jī) 等 組 成;在PC上用Spectral軟件進(jìn)行圖像采集軟件控制。高 光 譜 成 像系統(tǒng)光譜范圍為360~1000nm,光 譜 分 辨 率 為2.7nm,采集的圖像有256個(gè)波段。
為保證視野 足 夠,調(diào)節(jié)鏡頭和樣本的間距為 25.5cm;為矯正速度不匹配帶來的空間畸變,使用一張打印有一個(gè)圓圈的 A4紙調(diào)試平臺的速度,轉(zhuǎn) 速 設(shè) 定 為940pulses·s-1;曝光時(shí)間為3.5ms。
將樣本置于內(nèi)部大小為15cm×20cm×3cm 的樣本盒中,分布均勻,將樣本盒固定于移動平臺上進(jìn)行圖像采集。樣本盒覆蓋有黑色背景紙,有利于后期掩膜去除背景以及后續(xù)處理。
為減少光源光強(qiáng)分布不均勻?qū)е碌膱D像信息噪聲影響,使用的高光譜成像系統(tǒng)在采集圖像之前需要進(jìn)行黑白校正。掃描聚四氟乙烯白板獲得白校正圖像;鏡頭擰上鏡頭蓋并關(guān)閉光源采集黑 校 正 圖 像,該圖像包含有相機(jī)暗電流噪聲信息。圖像采集后用軟件SpecView(V2.9.2.7)按式(1)進(jìn)行校正Ia = I-IbIw -Ib(1)其中:I為 原 始 圖 像,Ib 為 黑 校 正 圖 像,Iw 為 白 校 正 圖 像,Ia 為獲取校正后的圖像。
1.3 機(jī)采籽棉數(shù)據(jù)分析和雜質(zhì)多分類模型
使用 PCA(principalcomponentanalysis,PCA)對平均光譜數(shù)據(jù)進(jìn)行分析,將成百個(gè)相互高度相關(guān)波段數(shù)據(jù)降維至少數(shù)個(gè)新的主成分變量上,用來代替原來數(shù)據(jù)的大部分信息,并通過繪制分布散點(diǎn)圖體現(xiàn)原光譜數(shù)據(jù)的分類識別可行性。
采用 LDA,SVM 和 ANN 三種有監(jiān)督的分類判別分析方法建立機(jī)采籽棉雜質(zhì)多分類判別模型。模型訓(xùn)練的過程為:首先將提取的平均光譜數(shù)據(jù)按照7∶3的比例,隨機(jī)劃分為訓(xùn)練集和測試集;然后根據(jù)不同模型的參數(shù)特點(diǎn)和數(shù)據(jù)特性,使用訓(xùn)練集采 用5折 交 叉 驗(yàn) 證,確定最佳的模型參數(shù),并使用測試集對模型結(jié)果進(jìn)行評估。
2 結(jié)果與討論
2.1 高光譜圖像光譜曲線數(shù)據(jù)提取與分析
2.1.1 平均光譜曲線提取與變化規(guī)律
經(jīng)過黑白校正后的圖像,在可見至近紅外波段上,共 有256個(gè)波段。意味著在空間域上每個(gè)像素具有 256個(gè) 特 征,這些特征組成該像素對應(yīng)的光譜曲線。因高光譜圖像中存在噪聲,單一像素對應(yīng)的光譜曲線可能在噪聲的影響下,表 現(xiàn)出較大的變化。因?yàn)楣庾V成像儀的特 性,高光譜圖像在首尾的波段圖像 噪 聲 較 大,有 用 信 息 較 少,所以將這些波段剔除,即去除395nm 以前和970nm 以后的光譜圖像波段,將395~970nm 區(qū)間共226個(gè)光譜波段的數(shù)據(jù)作為后續(xù)分析數(shù)據(jù)。
從每幅圖像中提取10條平均光譜曲線,共1200條光譜曲線,其中棉葉、殘膜、鈴殼外、鈴殼內(nèi)、棉枝和棉花分別為457,173,88,193,63和226條。繪制機(jī)采籽棉中具有代表性的棉花和各類雜質(zhì)的平均光譜曲線,如 圖3所 示:各 類 物質(zhì)在430nm 處附近反射率均為最小,吸 收 最 強(qiáng);棉 花 的 反射率較其他物質(zhì)在大部分波段范圍高;殘膜整體上和棉花變化趨勢一致,但是數(shù)值比棉花低,驗(yàn)證了從圖像上檢測殘膜的難度較大;鈴殼內(nèi)的反射率在750nm 前低于棉花和殘膜,但是在750nm 后超過了棉花和殘膜;棉 葉、棉 枝 和 鈴 殼 外在趨勢和數(shù)值上都比較相似,但 是 棉 葉 在680nm 處 出 現(xiàn) 了吸收峰,此現(xiàn)象對應(yīng)了葉綠素的吸收波 段。從630nm 開 始到近紅外波段范圍內(nèi),鈴殼外的反射率比棉葉和棉枝都高。
綜上所述,雖然棉花和各類雜質(zhì)的光譜曲線趨勢相同,但還是體現(xiàn)出不同的吸收和反射特性。不同種類物質(zhì)(棉花、化學(xué)纖維和植物)之間的差異大于同類物質(zhì)之間的光譜差異,同種物質(zhì)之間的差異不能通過單個(gè)波段進(jìn)行判別,所以需要進(jìn)行數(shù)據(jù)分析和建模。
2.1.2 機(jī)采籽棉光譜曲線 PCA 分析
對提取的平均光譜曲線進(jìn)行PCA 變換,如圖4所示,前2個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到了97.2%,前6個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到了99.9%,能夠代表原始光譜數(shù)據(jù)的大部分信息。PCA 前兩個(gè)主成分的散點(diǎn)圖如圖5所示,6類物質(zhì)光譜變換后的新變量分布于整個(gè)空間中。由 圖 可 知,棉 花、殘 膜和鈴殼外與其他三類相比,有較好的聚集性和可分性,但 是由于棉葉、鈴殼內(nèi)和棉枝三類的物質(zhì)組成(纖維素和木質(zhì)素)相似性較高,光譜特征 相 似,導(dǎo)致相互疊加在一 起,空 間 分布存在嚴(yán)重交叉,無法有效區(qū)分類別。由于PCA 為無監(jiān)督降維方法,無法有效利用分類信息,因此需要使用有監(jiān)督的數(shù)據(jù)建模方法,對光譜分類數(shù)據(jù)進(jìn)行學(xué)習(xí)擬合,實(shí) 現(xiàn) 對 雜 質(zhì) 類別的準(zhǔn)確識別。
2.2 機(jī)采籽棉雜質(zhì)光譜多分類模型
2.2.1 線性判別分析(LDA)模型
線性判 別 分 析(lineardiscriminantanalysis,LDA)是 將原始數(shù)據(jù)投影到更低的維度上,減少特征之間的線性相關(guān)性導(dǎo)致的特征冗余問題。通 過 LDA 進(jìn) 行 降 維,可 以 達(dá) 到 提 升分類準(zhǔn)確率的目的。
與 PCA 中 的 分 布 相 比,圖6(a)中 棉 花、殘 膜 和 鈴 殼 外有更好的聚集性和可分性,表 明 有 監(jiān) 督 的 LDA 模 型 降 維 方法變換后的數(shù)據(jù)具有更好的可分性;但 是 棉 葉、鈴 殼 內(nèi) 和 棉枝這三類還是相互疊加在一起,空間分布存在嚴(yán)重交叉,無法有效區(qū)分 類 別。因此針對該三類重新進(jìn)行了 LDA 降 維,見圖6(b)中的棉葉、鈴殼內(nèi)和棉枝表現(xiàn)出了較高的可分性,驗(yàn)證了 LDA 模型在機(jī)采籽棉多分類上的可行性。
因 LDA 易出現(xiàn)過擬合,因此在 LDA 模型構(gòu)件中采用正則化防 止 過 擬 合,建 立 分 類 模 型,得到訓(xùn)練集準(zhǔn)確率為86.4%,測試集準(zhǔn)確率為86.2%,其 差 值 較 小,未 出 現(xiàn) 過 擬合現(xiàn)象。
2.2.2 支持向量機(jī)(SVM)模型
支持向量機(jī)(supportvectormachine,SVM)廣 泛 應(yīng) 用 于建立分類判別模型。在SVM 分類模型構(gòu)建中采用 RBF徑向基函數(shù)構(gòu)建了分類模型,對gamma(g)和cost(C)兩個(gè)參數(shù)進(jìn)行 尋優(yōu),將Lg(g)和-Lg(c)參數(shù)區(qū)間設(shè)置為[0,10]。由圖7可知,在C=105、gamma=0.1時(shí),交叉驗(yàn)證集的準(zhǔn)確率最高達(dá)到95.19%。根據(jù)最優(yōu)參數(shù)模型得出訓(xùn)練集準(zhǔn)確率為83.42%,測試集準(zhǔn)確率為83.40%,兩 者 差 值 較 小,未 出 現(xiàn)過擬合現(xiàn)象。
2.2.3 人工神經(jīng)網(wǎng)絡(luò)(ANN)模型
人工神經(jīng)網(wǎng)絡(luò)(artificialneuralnetwork,ANN)是一種影響強(qiáng)、分類效果好的神經(jīng)網(wǎng)絡(luò)分類算法,在解決非線性問題上具有較強(qiáng)能力。在 ANN 分類模型構(gòu)建中,設(shè) 置 隱 含 層 層數(shù)區(qū)間為[1,10],隱含層神經(jīng)元個(gè)數(shù)區(qū)間為[1,18],激 活函數(shù)選擇 Relu函數(shù)進(jìn)行參數(shù)尋優(yōu)。由圖8可知,在隱含層層數(shù)為2,隱含層神經(jīng)元個(gè)數(shù)為17,交叉驗(yàn)證集的準(zhǔn)確率達(dá)到最高為73.92%。以尋優(yōu)所得到的參數(shù),建立 ANN 分類模型并輸出,訓(xùn)練集準(zhǔn)確率為82.9%,測試集準(zhǔn)確率為81.8%,沒有發(fā)生過擬合。
2.3 模型效果比較
對上述的多分類模型準(zhǔn)確率性能進(jìn)行對 比,如 表 1 所示,結(jié)果顯示 LDA 模型的準(zhǔn)確率高于 SVM 模型和 ANN 模型,訓(xùn)練集和預(yù)測集的準(zhǔn)確率達(dá)到了86.4%和86.2%。由于高光譜波段之間有較高的相關(guān)性,分類模型無法有效篩選信息,會引起誤差的產(chǎn)生。LDA 在分類前對光譜特征進(jìn)行了降維,減少了特征之間的相關(guān)性,保留了大部分類間信息,因此在多分類問題中,相較于SVM 和 ANN 具有更好的效果。
三個(gè)模型預(yù)測效果如圖9所示。在 LDA 模 型 中,地 膜、鈴殼(內(nèi)和外)和棉花的準(zhǔn)確率較高,均高于90%;棉葉和棉枝 的 準(zhǔn) 確 率 較 低,分 別 為 59.84% 和 77.08%,其 中 有26.77%的棉葉被識別為棉枝,9.72%的棉枝被識別為棉葉,9.72%的棉枝和8.66%的棉葉被識別為鈴殼內(nèi);與 LDA 模型相比較,SVM 模 型 和 ANN 模型的鈴殼內(nèi)準(zhǔn)確率有所降低,誤差類別分布一致但較高。分析認(rèn)為這些識別錯(cuò)誤的原因主要是棉葉、棉枝和鈴殼內(nèi)的物質(zhì)成分相似度高,導(dǎo) 致 在波段范圍內(nèi)表現(xiàn)出光譜曲線相似的特點(diǎn)。
2.4 像素等級雜質(zhì)分類判別
根據(jù)三種算法對120個(gè)高光譜圖像進(jìn)行檢測分類,并將運(yùn)行時(shí)間進(jìn)行平均,得到每個(gè)模型檢測高光譜圖像所需運(yùn)行時(shí)間。結(jié)果如表1所示,SVM,LDA 和 ANN 的 運(yùn) 行 時(shí) 間 分別為73.65,1.86和2.58s,綜合 比 較,LDA 的 分 類 準(zhǔn) 確 率較高且運(yùn)行時(shí)間少,確定 LDA 分類模型為最優(yōu)模型。
使用訓(xùn)練的LDA 模型對高光譜圖像進(jìn)行像素等級分類,分類效果如圖10所示。可看出棉花識別效果較好;部分棉葉和棉枝不能有效識別;地膜雖然被檢 測 出 來,但 因 地 膜 的 光譜曲線在大部分波段上和棉花相似,亮 度 較 棉 花 低,所 以 部分棉花中表面不平導(dǎo)致的亮度較低的區(qū)域被識別為地膜。上述分類效果與雜質(zhì)光譜的分類判別模型結(jié)果一致。
3 結(jié) 論
(1)通過參數(shù)優(yōu)化,建立了三種機(jī)采籽棉雜質(zhì)分類判別模型。其中 LDA 的分 類 準(zhǔn) 確 率 較 高,訓(xùn)練集和測試集的準(zhǔn)確率分別為86.4%和86.2%。由于棉葉和棉枝的物質(zhì)成分相似,光譜曲線相似,導(dǎo)致棉葉和棉枝雜質(zhì)的分類準(zhǔn)確率較低。
(2)對于像素等級雜質(zhì)檢測,該方法能夠識別大部分雜質(zhì),檢測效果明顯。LDA 算法需要的時(shí)間約為1.86s,少于ANN 的2.58s,且遠(yuǎn)少于SVM 的73.65s,能夠滿足實(shí)際生產(chǎn)對于檢測的需求,因此 LDA 為最佳模型。
(3)在后續(xù)研究中可以基于該方法,增 加 樣 本 數(shù) 量,選擇覆蓋范圍更大的波段和加入紋理特征,提升棉葉和棉枝的檢測效果;并根據(jù)光譜圖像數(shù)據(jù)分析提取特征波段,開 發(fā) 多光譜成像檢測 系 統(tǒng),實(shí)現(xiàn)更高效率的機(jī)采籽棉雜質(zhì)實(shí)時(shí)檢測。
論文指導(dǎo) >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >