国产亚洲精品91-国产亚洲精品aa在线观看-国产亚洲精品aa在线看-国产亚洲精品xxx-国产亚洲精品不卡在线

樹(shù)人論文網(wǎng)一個(gè)專業(yè)的學(xué)術(shù)咨詢網(wǎng)站!!!
樹(shù)人論文網(wǎng)

結(jié)合注意力機(jī)制和特征融合的靜態(tài)手勢(shì)識(shí)別

來(lái)源: 樹(shù)人論文網(wǎng)發(fā)表時(shí)間:2021-05-15
簡(jiǎn)要:摘 要:近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)在手勢(shì)識(shí)別領(lǐng)域有著越來(lái)越多的應(yīng)用。但現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)存在特征表征不足的問(wèn)題,致使手勢(shì)識(shí)別精度較低。為此,本文提出了一種輕量級(jí)靜態(tài)手勢(shì)識(shí)別

  摘 要:近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)在手勢(shì)識(shí)別領(lǐng)域有著越來(lái)越多的應(yīng)用。但現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)存在特征表征不足的問(wèn)題,致使手勢(shì)識(shí)別精度較低。為此,本文提出了一種輕量級(jí)靜態(tài)手勢(shì)識(shí)別算法 r-mobilenetv2,該算法首先將通道注意力和空間注意力串聯(lián)起來(lái),并將二者輸出特征圖通過(guò)跳躍連接形式線性相加,得到一種全新注意力機(jī)制。然后,將高層特征經(jīng)上采樣與低層特征空間維度匹配,低層特征使用一維卷積調(diào)整通道維度與高層特征通道維度匹配,二者線性相加,其結(jié)果經(jīng)卷積操作與高層特征按通道維度連接而實(shí)現(xiàn)特征融合。最后,將所提出的注意力機(jī)制和特征融合結(jié)合起來(lái),用于改進(jìn)后輕量級(jí)網(wǎng)絡(luò) MobileNetV2中,進(jìn)而得到r-mobilenetv2算法。實(shí)驗(yàn)顯示r-mobilenetv2相較MobileNetV2減少27%的參數(shù)量,錯(cuò)誤率降低1.82%。

結(jié)合注意力機(jī)制和特征融合的靜態(tài)手勢(shì)識(shí)別

  本文源自胡宗承; 周亞同; 史寶軍; 何昊, 計(jì)算機(jī)工程 發(fā)表時(shí)間:2021-05-14《計(jì)算機(jī)工程》簡(jiǎn)介:《計(jì)算機(jī)工程》刊登內(nèi)容包括發(fā)展趨勢(shì)/熱點(diǎn)技術(shù)、博士論文、基金項(xiàng)目論文、專題論文、軟件技術(shù)與數(shù)據(jù)庫(kù)、安全技術(shù)、多媒體技術(shù)及應(yīng)用、網(wǎng)絡(luò)與通信、人工智能及識(shí)別技術(shù)、工程應(yīng)用技術(shù)與實(shí)現(xiàn)、開(kāi)發(fā)研究與設(shè)計(jì)技術(shù)等。

  關(guān)鍵詞:注意力機(jī)制;特征融合;手勢(shì)識(shí)別;圖片分類;輕量級(jí)網(wǎng)絡(luò)

  0 概述

  手勢(shì)識(shí)別是人機(jī)交互的一個(gè)重要研究方向,在體感游戲和智能家居等場(chǎng)景有著廣泛應(yīng)用。LIAN[1]、 YANG[2]等人利用穿戴設(shè)備識(shí)別簡(jiǎn)單手勢(shì),但穿戴設(shè)備使用不便且不適合推廣。基于視覺(jué)的手勢(shì)識(shí)別憑借靈活便捷的優(yōu)勢(shì),成為一個(gè)研究熱點(diǎn)。深度學(xué)習(xí)火熱前,基于視覺(jué)的手勢(shì)識(shí)別重大突破多屬于人工特征提取方法,如方向梯度直方圖[3-5](Histogram of oriented gradient, HOG)、SIFT[6](Scale-invariant feature transform)等。對(duì)特征分類多采用 SVM (Support Vector Machine),如文芳等人[7]提出一種基于 RGB-D 數(shù)據(jù)的手勢(shì)識(shí)別方法,首先分割手部區(qū)域,提取手勢(shì)特征,進(jìn)而使用 SVM 進(jìn)行分類。 TARVEKAR 等人[8]提出一種用于非接觸式的手勢(shì)識(shí)別系統(tǒng),該系統(tǒng)在多種顏色空間中檢測(cè)膚色信息,應(yīng)用皮膚閾值從分割圖像中分割手部區(qū)域,從中提取顏色和邊緣特征,利用 SVM 分類器對(duì)手勢(shì)進(jìn)行識(shí)別。緱新科等人[9]提出一種基于梯度方向直方圖與局部二值模式融合的手勢(shì)識(shí)別方法,該方法利用主成分分析對(duì)梯度方向直方圖特征描述算子進(jìn)行降維,降維后的數(shù)據(jù)與局部二值模式特征融合,最后利用 SVM 實(shí)現(xiàn)靜態(tài)手勢(shì)識(shí)別。

  隨著深度學(xué)習(xí)成為研究熱點(diǎn),卷積神經(jīng)網(wǎng)絡(luò)逐漸被應(yīng)用在各種領(lǐng)域。吳曉風(fēng)等人[10]通過(guò) Faster RCNN 深度網(wǎng)絡(luò)模型進(jìn)行手勢(shì)識(shí)別,能夠在識(shí)別手勢(shì)的同時(shí)進(jìn)行手勢(shì)檢測(cè)。張強(qiáng)等人[11]采用改進(jìn)的 YOLOV3(You Only Look Once)算法對(duì)靜態(tài)手勢(shì)進(jìn)行識(shí)別,該方法采用 Kinect 設(shè)備采集的四種信息,綜合四種圖片信息的優(yōu)勢(shì),共同作用提高手勢(shì)識(shí)別精度,同時(shí)利用 K-Means 聚類算法對(duì) YOLOV3 候選框 參 數(shù) 進(jìn) 行 優(yōu) 化 。 周 文 軍 等 人 [12] 在 DSSD (Deconvolutional Single Shot Detector)的上提出一種靜態(tài)手勢(shì)識(shí)別算法,DSSD 中的先驗(yàn)框?qū)捀弑炔⒎鞘謩?dòng)設(shè)定,使用 K-Means 聚類算法和手肘法共同決定先驗(yàn)框?qū)捀弑龋瑫r(shí)還利用遷移學(xué)習(xí)解決數(shù)據(jù)量小的問(wèn)題。CHAUDHARY [13]提出了一個(gè)用于光不變手勢(shì)識(shí)別系統(tǒng)的神經(jīng)網(wǎng)絡(luò)。利用方向直方圖提取手勢(shì)特征向量對(duì)六類手勢(shì)分類。極端光照強(qiáng)度變化環(huán)境總體精度達(dá)到 92.86%。ALNUJAIM 等人[14]利用手勢(shì)對(duì)天線阻抗產(chǎn)生變化進(jìn)行分類,將采集阻抗轉(zhuǎn)化為光譜圖,采集時(shí)變信號(hào)作為圖像,利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,對(duì)于精細(xì)手勢(shì)識(shí)別仍需進(jìn)一步研究。

  針對(duì)現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型對(duì)手勢(shì)特征表征不足問(wèn)題,本文提出了一種結(jié)合注意力和特征融合的靜態(tài)手勢(shì)識(shí)別算法。引入注意力機(jī)制對(duì)輸入特征圖進(jìn)行選擇性輸入,引入特征融合將高級(jí)特征經(jīng)上采樣與低級(jí)特征相結(jié)合增強(qiáng)特征表征能力,共同作用提高分類精度。本文主要工作如下:(1)引入注意力機(jī)制。采用通道注意力與空間注意力串聯(lián)的方式,提出 一 個(gè) 自 適 應(yīng) 卷 積 注 意 力 模 塊 ( Adaptive Convolution Attention Module,ACAM)。該模塊在增加模型復(fù)雜度的同時(shí),對(duì)模型的特征表征能力帶來(lái)了明顯的改善。(2)引入特征融合,提出分類特征金字塔(Classification Feature Pyramid,CFP)將高層特征與低層特征結(jié)合,提高分類精度。(3)在不同 網(wǎng) 絡(luò) 模 型 上 驗(yàn) 證 ACAM 的 適 應(yīng) 性 , 以 MobileNetV2 為例在不同注意力機(jī)制上驗(yàn)證 ACAM 的有效性。通過(guò)消融實(shí)驗(yàn)驗(yàn)證驗(yàn)證 ACAM 和 CFP 在網(wǎng)絡(luò)中的表現(xiàn)能力。(4)提出一種結(jié)合注意力和特征融合的靜態(tài)手勢(shì)識(shí)別算法 r-mobilenetv2。

  1 相關(guān)工作

  注意力機(jī)制研究源于 19 世紀(jì)的實(shí)驗(yàn)室心理學(xué),2014 年 Google DeepMind 團(tuán)隊(duì)提出注意力機(jī)制并將其用在圖片分類中[15]。注意力機(jī)制本質(zhì)是對(duì)輸入數(shù)據(jù)特定選擇,使網(wǎng)絡(luò)模型更加關(guān)注輸入數(shù)據(jù)中的重要信息,抑制非重要信息。

  WANG 等人[16]提出殘差注意力網(wǎng)絡(luò),殘差學(xué)習(xí)機(jī)制由多個(gè)注意力模塊堆疊而成,注意力模塊內(nèi)部采用自底向上、自頂向下結(jié)構(gòu)與堆疊的沙漏網(wǎng)絡(luò)可以快速收集圖像全局信息,并將全局信息與原始特征圖結(jié)合,但存在計(jì)算量大的問(wèn)題。HU 等人[17]提出 SENet(Squeeze-and-Excitation Networks),通過(guò)壓縮 -激勵(lì)方法使特征圖通道間建立相互依賴關(guān)系,自適應(yīng)調(diào)整特征圖通道權(quán)重。WOO 等人[18-19]提出 BAM ( Bottleneck Attention Module ) 及 CBAM (Convolutional Block Attention Module)兩種不同注意力模塊,同時(shí)考慮空間注意力和通道注意力。BAM 在深度神經(jīng)網(wǎng)絡(luò)下采樣前發(fā)揮作用,其中通道注意力模型和空間注意力模型采用并聯(lián)方式。CBAM 通道注意力模型和空間注意力模型采用串聯(lián)方式結(jié)合, 是一個(gè)輕量級(jí)注意力模塊。WANG 等人[20]提出一種有效的通道注意深度卷積神經(jīng)網(wǎng)絡(luò) ECA(Efficient Channel Attention),借鑒 SENet 思想,將全連接層替換為一維卷積,并且采用自適應(yīng)一維卷積對(duì)通道進(jìn)行特征提取,聯(lián)合相鄰?fù)ǖ佬畔ⅲm然實(shí)驗(yàn)取得不錯(cuò)結(jié)果,但是沒(méi)有引入特征圖空間關(guān)系。武茜等人[21]將多通道注意力機(jī)制用于人臉替換的鑒別任務(wù)中,在多通道注意力中融合了全局注意力和局部注意力。魯甜等人[22]提出了一種特征圖注意力用于超分辨率圖像重建,利用特征圖注意力機(jī)制獲取特征通道間依賴關(guān)系,自適應(yīng)調(diào)整特征圖通道權(quán)重。

  特征融合多用于目標(biāo)檢測(cè)、圖像分割中,很多工作通過(guò)融合多層特征提升檢測(cè)和分割能力。LIN 等人[23]提出目標(biāo)檢測(cè)的特征金字塔網(wǎng)絡(luò),采用具有橫向連接、自頂向下結(jié)構(gòu)將高層語(yǔ)義特征與低層語(yǔ)義特征結(jié)合,提高了小目標(biāo)檢測(cè)能力。LIU 等人[24] 提出了路徑聚合網(wǎng)絡(luò)(Path Aggregation Network, PANet),PANet 采用自底向上的路徑增強(qiáng)方法,以較底層的精確定位信號(hào)增強(qiáng)整個(gè)特征層,縮短較底層次與最上層間的信息路徑,并且提出自適應(yīng)特征池化,將特征網(wǎng)絡(luò)與各特征層連接。CAO 等人[25] 提出一種基于注意力引導(dǎo)的語(yǔ)義特征金字塔網(wǎng)絡(luò)(Attention-guided Context Feature Pynamid Network, ACFPN),該網(wǎng)絡(luò)利用注意力機(jī)制整合不同大規(guī)模區(qū)域信息。陳澤等人[26]提出了基于級(jí)聯(lián)的多層特征融合策略,將淺層特征圖與深層特征圖按通道維度連接,解決小目標(biāo)識(shí)別效果差的問(wèn)題。李季等人[27]針對(duì)目標(biāo)尺度不同的問(wèn)題,采用多尺度融合的思想,構(gòu)建三分支網(wǎng)絡(luò),然后對(duì)低層特征和高層特征進(jìn)行選擇性融合。李青援等人[28]為解決多尺度融合存在信息差異的問(wèn)題,提出了一種新的特征融合方法,將兩種不同尺度特征圖結(jié)合,產(chǎn)生含有兩個(gè)特征圖信息的中間層,利用中間層表示不同尺度特征圖中間差異,然后將中間層與采樣后的特征圖再次融合,避免信息差異帶來(lái)的負(fù)面影響。

  2 本文算法

  本文算法創(chuàng)新點(diǎn)在提出了一種新的注意力機(jī)制 ACAM,和特征圖融合方式 CFP。ACAM 綜合了特征圖的通道和空間信息,CFP 融合了低層和高層特征有效提高了分類的準(zhǔn)確度。除了以上兩點(diǎn)外,本文將 ACAM、CFP 運(yùn)用在改進(jìn)的 MobileNetV2 [29]上,提出了 r-mobilenetv2 網(wǎng)絡(luò)。

  2.1 注意力機(jī)制

  本文提出的注意力模塊 ACAM 如圖 1 所示。 ACAM 由兩部分組成,通道注意力模型和空間注意力模型。通道注意力模型采用自適應(yīng)一維卷積操作,且在通道注意力模型后添加跳躍連接,將通道注意力模型輸出特征圖 F1與空間注意力模型輸出特征圖 F2 線性相加。假設(shè)初始輸入特征圖 F 大小為 H W C ? ?,通過(guò) ACAM 中的通道注意力模型可得大小為 1 1 C ? ?的一維通道注意力特征圖;通過(guò) ACAM 中空間注意力模型可得大小為 H W 1 ? ?的二維空間注意力特征圖。

  其中:CA 為通道注意力模型,SA 為空間注意力模型,F(xiàn) 為輸入特征圖,F(xiàn)1 為經(jīng)過(guò)通道注意力模型處理后的特征圖,F(xiàn)2 為經(jīng)過(guò)空間注意力模型處理后的特征圖,F(xiàn)3為整體注意力模型處理后的重建特征圖。

  通道注意力模型采用一維卷積對(duì)特征圖通道信息處理,根據(jù)特征圖通道數(shù)動(dòng)態(tài)選擇卷積核大小。通道注意力模型工作流程如圖 2 所示。首先對(duì)輸入特征圖進(jìn)行壓縮,即在空間方向進(jìn)行壓縮,得到大小為 1 1 C ? ?的特征圖。根據(jù)特征圖通道數(shù) C,自適應(yīng)選擇一維卷積核大小。根據(jù)卷積核大小一維卷積對(duì)相鄰?fù)ǖ捞卣鬟M(jìn)行處理,增加通道間相關(guān)性。再將一維卷積處理后的特征圖通過(guò)激活函數(shù)進(jìn)行重建。最后得到一維通道注意力特征圖與輸入特征圖 F 相乘輸出為通道注意力輸出特征圖 F1。

  根據(jù)特征圖共享卷積核的原則,可以推斷通道數(shù) C 與一維卷積核 kernel-size: k 必然存在某種聯(lián)系,即滿足 ( ) C ( ) 2 r k b ? k ? ?? ?。最基礎(chǔ)假設(shè)從簡(jiǎn)單的線性映射驗(yàn)證該函數(shù),即 C ? ? ? r k b ,但線性關(guān)系表達(dá)性有限。另一方面由于計(jì)算機(jī)是二進(jìn)制,而卷積神經(jīng)網(wǎng)絡(luò)中 batch-size、通道維度大多習(xí)慣設(shè)為 2 n,故設(shè) ( ) C ( ) 2 r k b ? k ? ?? ?。采用非線性表示通道數(shù) C 與一維卷積核 k 之間關(guān)系,相較線性關(guān)系有更強(qiáng)的表現(xiàn)型,如公式 2 所示: 2 lo g ( C ) ( C ) b k f r r ? ?? ? ? ? ? ? ? (2) 其中: k 為一維卷積核大小,C 為輸入特征圖通道數(shù), r 、b 為超參數(shù),這里分別取 r 為 2,b 為 1。

  空間注意力模型在通道注意力輸出特征圖 F1的基礎(chǔ)上進(jìn)行操作,如圖 3 所示。首先沿著通道所在維度方向進(jìn)行均值化處理,得到大小為 H W 1 ? ?的特征圖。然后對(duì)其進(jìn)行二維卷積操作,得到的特征圖經(jīng)激活函數(shù)輸出為二維空間注意力特征圖。最后二維空間注意力特征圖與通道注意力輸出特征圖 F1相乘得到空間注意力輸出特征圖 F2。

  2.2 特征融合

  本文借鑒特征金字塔的思想,提出分類特征金字塔 CFP。CFP 整體結(jié)構(gòu)如圖 4 所示,采用橫向連接、自頂向下與自底向上結(jié)合的連接方式。在 stage2 中高層特征 A 經(jīng)上采樣和 stage1中低層特征 B 經(jīng)一維卷積后得到的特征圖線性相加,得到特征圖 G,特征圖 G 經(jīng)二維卷積得到特征圖 D,特征圖 D 與高層特征 A 空間維度匹配后,在通道維度上連接,將得到新特征圖 E 送入后序網(wǎng)絡(luò)中分類。

  CFP 主要分為三部分 stage1、stage2、stage3,分別對(duì)應(yīng)特征提取、上采樣、特征融合三個(gè)方面。在 stage1 中,采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)進(jìn)行特征提取,自底而上的特征圖每次空間維度減半,取最上兩層特征圖 A、B 作為最終特征融合所需特征圖。 stage2應(yīng)用 stage1中最上層高級(jí)語(yǔ)義特征 A 進(jìn)行上采樣,經(jīng)上采樣后的特征圖空間尺度變?yōu)樵瓉?lái)二倍,與 stage1 中特征圖 B 在空間維度上匹配。stage1 中特征圖 B 經(jīng)過(guò) 1×1 卷積調(diào)整通道數(shù),使其與 stage2中特征圖 A 通道維度相匹配,兩者進(jìn)行簡(jiǎn)單線性相加。 stage3將 stage2中高分辨率特征圖 G 經(jīng)卷積操作使空間維度與低分辨率特征圖 A 相匹配,在通道維度連接。最后將融合特征圖 E 送入后序網(wǎng)絡(luò)分類。

  2.3 r-mobilenetv2

  r-mobilenetv2 在 MobileNetV2 基 礎(chǔ) 上 引 入 ACAM 和 CFP 的同時(shí),對(duì)原網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整。具體為,去掉最后一個(gè) Inverted Residuals 模塊即輸入為 7×7×160 的 Inverted Residuals 模塊,加入注意力機(jī)制 ACAM 和特征融合 CFP。

  MobileNet 系列[29-31]是由 Howard 等人提出的,一種有效的輕量級(jí)網(wǎng)絡(luò),雖然相較其他網(wǎng)絡(luò)犧牲部分準(zhǔn)確度,但在計(jì)算量和參數(shù)量上有著巨大優(yōu)勢(shì)。在 224×224 大小 RGB 圖片上 MobileNetV2 參數(shù)量是 VGG16 參數(shù)量的 1.72%,是 ResNet-18 參數(shù)量的 20.63%。故 MobileNet 系列及變體能夠有效的部署在移動(dòng)端。本文主要針對(duì) MobuleNetV2 進(jìn)行改進(jìn)。 r-mobileNetV2 的網(wǎng)絡(luò)結(jié)構(gòu)如表 1 所示:

  input 代表輸入特征圖大小,operator 代表對(duì)輸入特征圖的處理方式,C 代表通道數(shù),其中 class_num 代表類別數(shù),t 對(duì)應(yīng)擴(kuò)展因子,S 為 Strides 確定卷積步數(shù)。n 代表重復(fù)次數(shù)。當(dāng) n 大于 1 時(shí),每組的第一個(gè) bottleneck 中卷積 S 為表中的值,其他默認(rèn) S 取 1。一組 bottleneck 構(gòu)成一個(gè) Inverted Residuals 模塊。

  r-mobilenetv2 在每個(gè) Inverted Residuals 模塊中 Strides 等于 1、等于 2 時(shí)的共同部分后添加 ACAM,最后兩個(gè) Inverted Residuals 模塊中引入 CFP。加入 ACAM 的位置如圖 5 所示。

  3 實(shí)驗(yàn)與分析

  本文的實(shí)驗(yàn)硬件環(huán)境為 Inter(R) Xeon(R) CPU E5-2640 v4@ 2.40GHz, GPU為一塊顯存11G的GTX 1080Ti。軟件環(huán)境為 Ubuntu16.04, Keras2.2.2。使用 RMSprop 對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,初始學(xué)習(xí)率為 0.001,權(quán)重衰減系數(shù)為 1e-6。batch-size 設(shè)為 64,若 10 個(gè) epoch 測(cè)試集準(zhǔn)確率沒(méi)有提升,學(xué)習(xí)率衰減為原來(lái)的十分之一,30 個(gè) epoch 測(cè)試集準(zhǔn)確率沒(méi)有提升,程序停止。

  3.1 數(shù)據(jù)來(lái)源及預(yù)處理

  本文在 LaRED[32](large RGB-D extensible hand gesture dataset)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)測(cè)評(píng),LaRED 數(shù)據(jù)集共有 27 種基礎(chǔ)手勢(shì),含 242900 張圖片。27 種基礎(chǔ)手勢(shì)如圖 6 所示。每個(gè)基礎(chǔ)手勢(shì)取三個(gè)朝向,分別為基礎(chǔ)手勢(shì)、基礎(chǔ)手勢(shì)繞 X 軸旋轉(zhuǎn) 90 度、基礎(chǔ)手勢(shì)繞 X/Y 軸各旋轉(zhuǎn) 90 度的手勢(shì)。從數(shù)據(jù)集中選取部分手勢(shì)如圖 7 所示。

  原始數(shù)據(jù)集為按幀采集的連續(xù)序列,相鄰幀圖片近似。故每 15 幀取一張圖片,對(duì)數(shù)據(jù)集進(jìn)行篩選,同時(shí)只利用數(shù)據(jù)中的 RGB 信息。其訓(xùn)練集含 12955 張圖片,測(cè)試集含 3239 張圖片。對(duì)于處理好的圖片采取 RGB 的方式輸入,利用 ImageNet 中圖片均值進(jìn)行去均值。送到后續(xù)網(wǎng)絡(luò)中進(jìn)行分類。

  3.2 注意力機(jī)制 ACAM 實(shí)驗(yàn)分析

  本文首先在不同網(wǎng)絡(luò)模型上驗(yàn)證本文提出注意力機(jī)制的適用性,然后在 MobileNetV2 網(wǎng)絡(luò)的基礎(chǔ)上,添加不同注意力模型與本文提出的注意力模型對(duì)比,綜合驗(yàn)證 ACAM 的有效性。

  網(wǎng) 絡(luò) 選 取 所 選 網(wǎng) 絡(luò) ResNet-18[33] , ShuffleNetV2[34],MobileNetV2。實(shí)驗(yàn)結(jié)果由表 2 所示,表中顯示有網(wǎng)絡(luò)模型、參數(shù)量和 Top1 錯(cuò)誤率。

  從表 2 可以看出,本文提出的 ACAM 雖然僅引入較少參數(shù),但在不同網(wǎng)絡(luò)模型的準(zhǔn)確率上均有百分之一左右的提升,證明了 ACAM 模塊的適用性。在 ResNet-18 上錯(cuò)誤率降低 1.57%,參數(shù)量增加 214。在 ShuffleNetV2 上錯(cuò)誤率降低 0.77%,參數(shù)量增加 864。在 MobileNetV2 上錯(cuò)誤率降低 0.98%,參數(shù)量增加 892。

  對(duì)比三種不同網(wǎng)絡(luò)及加入 ACAM 的表現(xiàn), MobileNetV2不管從Top1 錯(cuò)誤率還是參數(shù)量均有明顯優(yōu)勢(shì)。從 Top1 錯(cuò)誤率看,MobileNetV2+ACAM 的 Top1 錯(cuò) 誤 率 比 ResNet-18 降 低 0.31% , 比 ShuffleNetV2+ACAM 降低 0.92%;從參數(shù)量上看, MobileNetV2+ACAM 參數(shù)量?jī)H為 RestNet-18 的 20.64%,為 ShuffleNetV2+ACAM 的 57.18%。綜合考慮在 MobileNetV2 基礎(chǔ)上進(jìn)行實(shí)驗(yàn)。

  為驗(yàn)證 ACAM 模塊的有效性,以 MobileNetV2 為例,在 BAM(bottleneck attention module)、CBAM ( convolutional block attention module )、 ECA (efficient channel attention)上與 ACAM 進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果由表 3 所示,表中顯示網(wǎng)絡(luò)模型、參數(shù)量和 Top1 錯(cuò)誤率。從表 3 可以看出,在 MobileNetV2 上,不同注意力模型對(duì)于手勢(shì)識(shí)別結(jié)果均有貢。相較 MobileNetV2 基礎(chǔ)網(wǎng)絡(luò),MobileNetV2+BAM 參數(shù)量增加 157400,在 MobileNetV2 參數(shù)量的基礎(chǔ)上增加 6.81%。MobileNetV2+CBAM 參數(shù)量增加 60,286,在 MobileNetV2 參數(shù)量的基礎(chǔ)上增加 2.61%。 MobileNetV2+ECA 參數(shù)量?jī)H增加 59,增加參數(shù)量相對(duì) MobileNetV2 參數(shù)量可忽略不計(jì)。本文提出的 ACAM 與 MobileNetV2 結(jié)合后參數(shù)量為 2,311,703,相較 MobileNetV2 參數(shù)量增加 892,相當(dāng)于在 MobileNetV2 參數(shù)量基礎(chǔ)上增加 3.86e-4。不考慮錯(cuò)誤率情況下,就引入?yún)?shù)量進(jìn)行比較,BAM 引入?yún)?shù)量最多,CBAM 次之,ACAM 和 ECA 引入?yún)?shù)量相對(duì)較少。綜合 Top1 錯(cuò)誤率和模型參數(shù)量?jī)蓚€(gè)衡量標(biāo)準(zhǔn)考慮,本文提出的 ACAM 結(jié)果更優(yōu)。

  3.3 改進(jìn)網(wǎng)絡(luò)實(shí)驗(yàn)分析

  將本文提出的注意力機(jī)制與特征融合模塊加入 MobileNetV2 中,并對(duì) MobileNetV2 進(jìn)行修改, mobilenetv2 為直接在 MobileNetV2 上修改后的網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果如表 4 所示。

  首先在 MobileNetV2 基礎(chǔ)上進(jìn)行刪減,刪減后 mobilenetv2 參 數(shù) 量 減 少 900,480 , 相 當(dāng) 于 MobileNetV2 參數(shù)量的 38.97%。mobilenetv2 在減少參數(shù)量的同時(shí)準(zhǔn)確率提升,Top1 錯(cuò)誤率減少 0.3%。實(shí)驗(yàn)說(shuō)明刪減后的網(wǎng)絡(luò)更適合手勢(shì)識(shí)別。然后在 MobileNetV2 和 mobilenetv2 上添加 CFP 和 ACAM。添加 CFP 后兩種不同網(wǎng)絡(luò) MobileNetV2+CFP 和 mobilenetv2+CFP Top1 錯(cuò)誤率均降低 1%左右,但參數(shù)量大幅上升,相較原基礎(chǔ)網(wǎng)絡(luò),參數(shù)量分別增加 58.96% 、 19.27% 。 添 加 ACAM 后 , mobilenetv2+ACAM 相較 MobileNetV2+ACAM Top1 錯(cuò)誤率更低,在參數(shù)量更少情況下,Top1 錯(cuò)誤率降低 0.53%。通過(guò)上述可得 CFP、ACAM 對(duì)手勢(shì)識(shí)別任 務(wù) 是 有 效 的 。 最 后 將 CFP 和 ACAM 加 入 MobileNetV2 和 mobilenetv2 中,形成 R-MobileNetV2 和 r-mobilenetv2。其中 R-MobileNetV2 以未經(jīng)刪減 MobileNetV2 為 基 礎(chǔ) , r-mobilenetv2 以 刪 減 后 MobileNetV2 為基礎(chǔ)。最終 R-MobileNetV2 相對(duì) MobileNetV2 Top1 錯(cuò)誤率降低 1.26%,參數(shù)量相對(duì) MobileNetV2 增加 59.00%,達(dá)到了 3,674,263。 r-mobilenetv2 相對(duì) mobilenetv2 Top1 錯(cuò)誤率降低 1.52%,參數(shù)量相對(duì) mobilenetv2 增加 11.79%,達(dá)到 1,682,849。r-mobilenetv2 相對(duì) R-MobileNetV2 Top1 錯(cuò)誤率降低 0.56%,參數(shù)量?jī)H為 R-MobileNetV2 的 45.80%。r-mobilenetv2 相對(duì) MobileNetV2 Top1 錯(cuò)誤率降低 1.82%,達(dá)到 1.17%,參數(shù)量?jī)H為 MobileNetV2 的 72.83%。綜上在對(duì)比實(shí)驗(yàn)中充分驗(yàn)證了 CFP 和 ACAM 及 r-mobilenetv2 的有效性。

  此外,在 r-mobilenetv2 網(wǎng)絡(luò)中,選取測(cè)試集數(shù)據(jù)制作混淆矩陣。結(jié)果如圖 8 所示,橫坐標(biāo)為預(yù)測(cè)類別,縱坐標(biāo)為真實(shí)類別。在 27 種手勢(shì)中,基本完全預(yù)測(cè)正確。從圖 8 可以看出,r-mobilenetv2 在手勢(shì)識(shí)別中有著優(yōu)異的表現(xiàn)。

  4 結(jié)束語(yǔ)

  本文結(jié)合注意力機(jī)制和特征融合,提出一種輕量 級(jí) 網(wǎng) 絡(luò) 靜 態(tài) 手 勢(shì) 識(shí) 別 算 法 r-mobilenetv2 。 r-mobilenetv2 能夠有效提取特征解決特征表征不足的問(wèn)題,提高手勢(shì)識(shí)別精度。結(jié)合了空間注意力和通道注意力模型提出了自適應(yīng)一個(gè)自適應(yīng)卷積注意力模塊,對(duì)網(wǎng)絡(luò)提取特征進(jìn)行選擇性輸入;針對(duì)高級(jí)語(yǔ)義特征含有分類信息并不完全的現(xiàn)狀,提出分類特征金字塔。通過(guò)實(shí)驗(yàn)證實(shí)自適應(yīng)卷積注意力模塊及分類特征金字塔的有效性。最后將自適應(yīng)卷積注 意 力 模 塊 和 分 類 特 征 金 字 塔 結(jié) 合 引 入 MobileNetV2 中 , 提 出 一 種 新 的 輕 量 級(jí) 網(wǎng) 絡(luò) r-mobilenetv2。相較為 MobileNetV2,r-mobilenetv2 參數(shù)量降低了 27.20%,Top1 錯(cuò)誤率降低了 1.82%。準(zhǔn)確達(dá)到 98.83%。在后續(xù)工作可以從損失函數(shù)、卷積方式入手對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn),進(jìn)一步提高網(wǎng)絡(luò)識(shí)別精度及泛化性能。

主站蜘蛛池模板: 久久综合免费视频 | 久久久精品久久视频只有精品 | 爱爱小视频在线看免费 | 俺要射| 精品久久久影院 | 丁香婷婷亚洲六月综合色 | 天天噜噜揉揉狠狠夜夜 | 免费国产成人高清视频网站 | 六月丁香婷婷综合 | 国产精品久久久久久久午夜片 | aiai视频在线观看 | 免费观看色 | 久草香蕉视频在线观看 | 国产在线观看网址在线视频 | 国产成人精品精品欧美 | 精品国产品欧美日产在线 | 国产成+人欧美+综合在线观看 | 日韩毛片大全免费高清 | 久久精品免视看国产明星 | 亚洲无吗在线视频 | 国产一级淫片a视频免费观看 | 亚洲欧美成人一区二区在线电影 | 久草免费在线播放 | 欧美啪 | 色综合网站国产麻豆 | 五月激激激综合网色播免费 | 国产专区在线 | 在线观看免费视频网站色 | 三级大黄 | 欧美成人特黄级毛片 | 中文在线日韩 | 亚洲一级黄色大片 | 91国内精品久久久久影院优播 | 精品免费在线视频 | 亚洲一区二区三区播放在线 | 亚洲欧美日本韩国 | 黄色影视在线观看 | 亚洲国产日韩在线 | 日本老妇成熟 | 精品无码久久久久国产 | 一级毛毛片毛片毛片毛片在线看 |