結(jié)合注意力機(jī)制和特征融合的靜態(tài)手勢(shì)識(shí)別

來(lái)源：樹(shù)人論文網(wǎng)發(fā)表時(shí)間：2021-05-15

簡(jiǎn)要：摘要：近年來(lái)，卷積神經(jīng)網(wǎng)絡(luò)在手勢(shì)識(shí)別領(lǐng)域有著越來(lái)越多的應(yīng)用。但現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)存在特征表征不足的問(wèn)題，致使手勢(shì)識(shí)別精度較低。為此，本文提出了一種輕量級(jí)靜態(tài)手勢(shì)識(shí)別

　　摘要：近年來(lái)，卷積神經(jīng)網(wǎng)絡(luò)在手勢(shì)識(shí)別領(lǐng)域有著越來(lái)越多的應(yīng)用。但現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)存在特征表征不足的問(wèn)題，致使手勢(shì)識(shí)別精度較低。為此，本文提出了一種輕量級(jí)靜態(tài)手勢(shì)識(shí)別算法 r-mobilenetv2，該算法首先將通道注意力和空間注意力串聯(lián)起來(lái)，并將二者輸出特征圖通過(guò)跳躍連接形式線性相加，得到一種全新注意力機(jī)制。然后，將高層特征經(jīng)上采樣與低層特征空間維度匹配，低層特征使用一維卷積調(diào)整通道維度與高層特征通道維度匹配，二者線性相加，其結(jié)果經(jīng)卷積操作與高層特征按通道維度連接而實(shí)現(xiàn)特征融合。最后，將所提出的注意力機(jī)制和特征融合結(jié)合起來(lái)，用于改進(jìn)后輕量級(jí)網(wǎng)絡(luò) MobileNetV2中，進(jìn)而得到r-mobilenetv2算法。實(shí)驗(yàn)顯示r-mobilenetv2相較MobileNetV2減少27%的參數(shù)量，錯(cuò)誤率降低1.82%。

　　本文源自胡宗承; 周亞同; 史寶軍; 何昊，計(jì)算機(jī)工程發(fā)表時(shí)間：2021-05-14《計(jì)算機(jī)工程》簡(jiǎn)介：《計(jì)算機(jī)工程》刊登內(nèi)容包括發(fā)展趨勢(shì)/熱點(diǎn)技術(shù)、博士論文、基金項(xiàng)目論文、專題論文、軟件技術(shù)與數(shù)據(jù)庫(kù)、安全技術(shù)、多媒體技術(shù)及應(yīng)用、網(wǎng)絡(luò)與通信、人工智能及識(shí)別技術(shù)、工程應(yīng)用技術(shù)與實(shí)現(xiàn)、開(kāi)發(fā)研究與設(shè)計(jì)技術(shù)等。

　　關(guān)鍵詞：注意力機(jī)制;特征融合;手勢(shì)識(shí)別;圖片分類;輕量級(jí)網(wǎng)絡(luò)

　　0 概述

　　手勢(shì)識(shí)別是人機(jī)交互的一個(gè)重要研究方向，在體感游戲和智能家居等場(chǎng)景有著廣泛應(yīng)用。LIAN[1]、 YANG[2]等人利用穿戴設(shè)備識(shí)別簡(jiǎn)單手勢(shì)，但穿戴設(shè)備使用不便且不適合推廣。基于視覺(jué)的手勢(shì)識(shí)別憑借靈活便捷的優(yōu)勢(shì)，成為一個(gè)研究熱點(diǎn)。深度學(xué)習(xí)火熱前，基于視覺(jué)的手勢(shì)識(shí)別重大突破多屬于人工特征提取方法，如方向梯度直方圖[3-5](Histogram of oriented gradient, HOG)、SIFT[6](Scale-invariant feature transform)等。對(duì)特征分類多采用 SVM (Support Vector Machine)，如文芳等人[7]提出一種基于 RGB-D 數(shù)據(jù)的手勢(shì)識(shí)別方法，首先分割手部區(qū)域，提取手勢(shì)特征，進(jìn)而使用 SVM 進(jìn)行分類。 TARVEKAR 等人[8]提出一種用于非接觸式的手勢(shì)識(shí)別系統(tǒng)，該系統(tǒng)在多種顏色空間中檢測(cè)膚色信息，應(yīng)用皮膚閾值從分割圖像中分割手部區(qū)域，從中提取顏色和邊緣特征，利用 SVM 分類器對(duì)手勢(shì)進(jìn)行識(shí)別。緱新科等人[9]提出一種基于梯度方向直方圖與局部二值模式融合的手勢(shì)識(shí)別方法，該方法利用主成分分析對(duì)梯度方向直方圖特征描述算子進(jìn)行降維，降維后的數(shù)據(jù)與局部二值模式特征融合，最后利用 SVM 實(shí)現(xiàn)靜態(tài)手勢(shì)識(shí)別。

　　隨著深度學(xué)習(xí)成為研究熱點(diǎn)，卷積神經(jīng)網(wǎng)絡(luò)逐漸被應(yīng)用在各種領(lǐng)域。吳曉風(fēng)等人[10]通過(guò) Faster RCNN 深度網(wǎng)絡(luò)模型進(jìn)行手勢(shì)識(shí)別，能夠在識(shí)別手勢(shì)的同時(shí)進(jìn)行手勢(shì)檢測(cè)。張強(qiáng)等人[11]采用改進(jìn)的 YOLOV3(You Only Look Once)算法對(duì)靜態(tài)手勢(shì)進(jìn)行識(shí)別，該方法采用 Kinect 設(shè)備采集的四種信息，綜合四種圖片信息的優(yōu)勢(shì)，共同作用提高手勢(shì)識(shí)別精度，同時(shí)利用 K-Means 聚類算法對(duì) YOLOV3 候選框參數(shù) 進(jìn) 行優(yōu) 化。周文軍等人 [12] 在 DSSD (Deconvolutional Single Shot Detector)的上提出一種靜態(tài)手勢(shì)識(shí)別算法，DSSD 中的先驗(yàn)框?qū)捀弑炔⒎鞘謩?dòng)設(shè)定，使用 K-Means 聚類算法和手肘法共同決定先驗(yàn)框?qū)捀弑龋瑫r(shí)還利用遷移學(xué)習(xí)解決數(shù)據(jù)量小的問(wèn)題。CHAUDHARY [13]提出了一個(gè)用于光不變手勢(shì)識(shí)別系統(tǒng)的神經(jīng)網(wǎng)絡(luò)。利用方向直方圖提取手勢(shì)特征向量對(duì)六類手勢(shì)分類。極端光照強(qiáng)度變化環(huán)境總體精度達(dá)到 92.86%。ALNUJAIM 等人[14]利用手勢(shì)對(duì)天線阻抗產(chǎn)生變化進(jìn)行分類，將采集阻抗轉(zhuǎn)化為光譜圖，采集時(shí)變信號(hào)作為圖像，利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類，對(duì)于精細(xì)手勢(shì)識(shí)別仍需進(jìn)一步研究。

　　針對(duì)現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型對(duì)手勢(shì)特征表征不足問(wèn)題，本文提出了一種結(jié)合注意力和特征融合的靜態(tài)手勢(shì)識(shí)別算法。引入注意力機(jī)制對(duì)輸入特征圖進(jìn)行選擇性輸入，引入特征融合將高級(jí)特征經(jīng)上采樣與低級(jí)特征相結(jié)合增強(qiáng)特征表征能力，共同作用提高分類精度。本文主要工作如下：(1)引入注意力機(jī)制。采用通道注意力與空間注意力串聯(lián)的方式，提出一個(gè) 自適應(yīng) 卷積注意力模塊 ( Adaptive Convolution Attention Module，ACAM)。該模塊在增加模型復(fù)雜度的同時(shí)，對(duì)模型的特征表征能力帶來(lái)了明顯的改善。(2)引入特征融合，提出分類特征金字塔(Classification Feature Pyramid，CFP)將高層特征與低層特征結(jié)合，提高分類精度。(3)在不同網(wǎng) 絡(luò) 模型上驗(yàn) 證 ACAM 的適應(yīng) 性，以 MobileNetV2 為例在不同注意力機(jī)制上驗(yàn)證 ACAM 的有效性。通過(guò)消融實(shí)驗(yàn)驗(yàn)證驗(yàn)證 ACAM 和 CFP 在網(wǎng)絡(luò)中的表現(xiàn)能力。(4)提出一種結(jié)合注意力和特征融合的靜態(tài)手勢(shì)識(shí)別算法 r-mobilenetv2。

　　1 相關(guān)工作

　　注意力機(jī)制研究源于 19 世紀(jì)的實(shí)驗(yàn)室心理學(xué)，2014 年 Google DeepMind 團(tuán)隊(duì)提出注意力機(jī)制并將其用在圖片分類中[15]。注意力機(jī)制本質(zhì)是對(duì)輸入數(shù)據(jù)特定選擇，使網(wǎng)絡(luò)模型更加關(guān)注輸入數(shù)據(jù)中的重要信息，抑制非重要信息。

　　WANG 等人[16]提出殘差注意力網(wǎng)絡(luò)，殘差學(xué)習(xí)機(jī)制由多個(gè)注意力模塊堆疊而成，注意力模塊內(nèi)部采用自底向上、自頂向下結(jié)構(gòu)與堆疊的沙漏網(wǎng)絡(luò)可以快速收集圖像全局信息，并將全局信息與原始特征圖結(jié)合，但存在計(jì)算量大的問(wèn)題。HU 等人[17]提出 SENet(Squeeze-and-Excitation Networks)，通過(guò)壓縮 -激勵(lì)方法使特征圖通道間建立相互依賴關(guān)系，自適應(yīng)調(diào)整特征圖通道權(quán)重。WOO 等人[18-19]提出 BAM ( Bottleneck Attention Module ) 及 CBAM (Convolutional Block Attention Module)兩種不同注意力模塊，同時(shí)考慮空間注意力和通道注意力。BAM 在深度神經(jīng)網(wǎng)絡(luò)下采樣前發(fā)揮作用，其中通道注意力模型和空間注意力模型采用并聯(lián)方式。CBAM 通道注意力模型和空間注意力模型采用串聯(lián)方式結(jié)合, 是一個(gè)輕量級(jí)注意力模塊。WANG 等人[20]提出一種有效的通道注意深度卷積神經(jīng)網(wǎng)絡(luò) ECA(Efficient Channel Attention)，借鑒 SENet 思想，將全連接層替換為一維卷積，并且采用自適應(yīng)一維卷積對(duì)通道進(jìn)行特征提取，聯(lián)合相鄰?fù)ǖ佬畔ⅲm然實(shí)驗(yàn)取得不錯(cuò)結(jié)果，但是沒(méi)有引入特征圖空間關(guān)系。武茜等人[21]將多通道注意力機(jī)制用于人臉替換的鑒別任務(wù)中，在多通道注意力中融合了全局注意力和局部注意力。魯甜等人[22]提出了一種特征圖注意力用于超分辨率圖像重建，利用特征圖注意力機(jī)制獲取特征通道間依賴關(guān)系，自適應(yīng)調(diào)整特征圖通道權(quán)重。

　　特征融合多用于目標(biāo)檢測(cè)、圖像分割中，很多工作通過(guò)融合多層特征提升檢測(cè)和分割能力。LIN 等人[23]提出目標(biāo)檢測(cè)的特征金字塔網(wǎng)絡(luò)，采用具有橫向連接、自頂向下結(jié)構(gòu)將高層語(yǔ)義特征與低層語(yǔ)義特征結(jié)合，提高了小目標(biāo)檢測(cè)能力。LIU 等人[24] 提出了路徑聚合網(wǎng)絡(luò)(Path Aggregation Network, PANet)，PANet 采用自底向上的路徑增強(qiáng)方法，以較底層的精確定位信號(hào)增強(qiáng)整個(gè)特征層，縮短較底層次與最上層間的信息路徑，并且提出自適應(yīng)特征池化，將特征網(wǎng)絡(luò)與各特征層連接。CAO 等人[25] 提出一種基于注意力引導(dǎo)的語(yǔ)義特征金字塔網(wǎng)絡(luò)(Attention-guided Context Feature Pynamid Network, ACFPN)，該網(wǎng)絡(luò)利用注意力機(jī)制整合不同大規(guī)模區(qū)域信息。陳澤等人[26]提出了基于級(jí)聯(lián)的多層特征融合策略，將淺層特征圖與深層特征圖按通道維度連接，解決小目標(biāo)識(shí)別效果差的問(wèn)題。李季等人[27]針對(duì)目標(biāo)尺度不同的問(wèn)題，采用多尺度融合的思想，構(gòu)建三分支網(wǎng)絡(luò)，然后對(duì)低層特征和高層特征進(jìn)行選擇性融合。李青援等人[28]為解決多尺度融合存在信息差異的問(wèn)題，提出了一種新的特征融合方法，將兩種不同尺度特征圖結(jié)合，產(chǎn)生含有兩個(gè)特征圖信息的中間層，利用中間層表示不同尺度特征圖中間差異，然后將中間層與采樣后的特征圖再次融合，避免信息差異帶來(lái)的負(fù)面影響。

　　2 本文算法

　　本文算法創(chuàng)新點(diǎn)在提出了一種新的注意力機(jī)制 ACAM，和特征圖融合方式 CFP。ACAM 綜合了特征圖的通道和空間信息，CFP 融合了低層和高層特征有效提高了分類的準(zhǔn)確度。除了以上兩點(diǎn)外，本文將 ACAM、CFP 運(yùn)用在改進(jìn)的 MobileNetV2 [29]上，提出了 r-mobilenetv2 網(wǎng)絡(luò)。

　　2.1 注意力機(jī)制

　　本文提出的注意力模塊 ACAM 如圖 1 所示。 ACAM 由兩部分組成，通道注意力模型和空間注意力模型。通道注意力模型采用自適應(yīng)一維卷積操作，且在通道注意力模型后添加跳躍連接，將通道注意力模型輸出特征圖 F1與空間注意力模型輸出特征圖 F2 線性相加。假設(shè)初始輸入特征圖 F 大小為 H W C ? ?，通過(guò) ACAM 中的通道注意力模型可得大小為 1 1 C ? ?的一維通道注意力特征圖;通過(guò) ACAM 中空間注意力模型可得大小為 H W 1 ? ?的二維空間注意力特征圖。

　　其中：CA 為通道注意力模型，SA 為空間注意力模型，F(xiàn) 為輸入特征圖，F(xiàn)1 為經(jīng)過(guò)通道注意力模型處理后的特征圖，F(xiàn)2 為經(jīng)過(guò)空間注意力模型處理后的特征圖，F(xiàn)3為整體注意力模型處理后的重建特征圖。

　　通道注意力模型采用一維卷積對(duì)特征圖通道信息處理，根據(jù)特征圖通道數(shù)動(dòng)態(tài)選擇卷積核大小。通道注意力模型工作流程如圖 2 所示。首先對(duì)輸入特征圖進(jìn)行壓縮，即在空間方向進(jìn)行壓縮，得到大小為 1 1 C ? ?的特征圖。根據(jù)特征圖通道數(shù) C，自適應(yīng)選擇一維卷積核大小。根據(jù)卷積核大小一維卷積對(duì)相鄰?fù)ǖ捞卣鬟M(jìn)行處理，增加通道間相關(guān)性。再將一維卷積處理后的特征圖通過(guò)激活函數(shù)進(jìn)行重建。最后得到一維通道注意力特征圖與輸入特征圖 F 相乘輸出為通道注意力輸出特征圖 F1。

　　根據(jù)特征圖共享卷積核的原則，可以推斷通道數(shù) C 與一維卷積核 kernel-size: k 必然存在某種聯(lián)系，即滿足 ( ) C ( ) 2 r k b ? k ? ?? ?。最基礎(chǔ)假設(shè)從簡(jiǎn)單的線性映射驗(yàn)證該函數(shù)，即 C ? ? ? r k b ，但線性關(guān)系表達(dá)性有限。另一方面由于計(jì)算機(jī)是二進(jìn)制，而卷積神經(jīng)網(wǎng)絡(luò)中 batch-size、通道維度大多習(xí)慣設(shè)為 2 n，故設(shè) ( ) C ( ) 2 r k b ? k ? ?? ?。采用非線性表示通道數(shù) C 與一維卷積核 k 之間關(guān)系，相較線性關(guān)系有更強(qiáng)的表現(xiàn)型，如公式 2 所示： 2 lo g ( C ) ( C ) b k f r r ? ?? ? ? ? ? ? ? (2) 其中： k 為一維卷積核大小，C 為輸入特征圖通道數(shù)， r 、b 為超參數(shù)，這里分別取 r 為 2，b 為 1。

　　空間注意力模型在通道注意力輸出特征圖 F1的基礎(chǔ)上進(jìn)行操作，如圖 3 所示。首先沿著通道所在維度方向進(jìn)行均值化處理，得到大小為 H W 1 ? ?的特征圖。然后對(duì)其進(jìn)行二維卷積操作，得到的特征圖經(jīng)激活函數(shù)輸出為二維空間注意力特征圖。最后二維空間注意力特征圖與通道注意力輸出特征圖 F1相乘得到空間注意力輸出特征圖 F2。

　　2.2 特征融合

　　本文借鑒特征金字塔的思想，提出分類特征金字塔 CFP。CFP 整體結(jié)構(gòu)如圖 4 所示，采用橫向連接、自頂向下與自底向上結(jié)合的連接方式。在 stage2 中高層特征 A 經(jīng)上采樣和 stage1中低層特征 B 經(jīng)一維卷積后得到的特征圖線性相加，得到特征圖 G，特征圖 G 經(jīng)二維卷積得到特征圖 D，特征圖 D 與高層特征 A 空間維度匹配后，在通道維度上連接，將得到新特征圖 E 送入后序網(wǎng)絡(luò)中分類。

　　CFP 主要分為三部分 stage1、stage2、stage3，分別對(duì)應(yīng)特征提取、上采樣、特征融合三個(gè)方面。在 stage1 中，采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)進(jìn)行特征提取，自底而上的特征圖每次空間維度減半，取最上兩層特征圖 A、B 作為最終特征融合所需特征圖。 stage2應(yīng)用 stage1中最上層高級(jí)語(yǔ)義特征 A 進(jìn)行上采樣，經(jīng)上采樣后的特征圖空間尺度變?yōu)樵瓉?lái)二倍，與 stage1 中特征圖 B 在空間維度上匹配。stage1 中特征圖 B 經(jīng)過(guò) 1×1 卷積調(diào)整通道數(shù)，使其與 stage2中特征圖 A 通道維度相匹配，兩者進(jìn)行簡(jiǎn)單線性相加。 stage3將 stage2中高分辨率特征圖 G 經(jīng)卷積操作使空間維度與低分辨率特征圖 A 相匹配，在通道維度連接。最后將融合特征圖 E 送入后序網(wǎng)絡(luò)分類。

　　2.3 r-mobilenetv2

　　r-mobilenetv2 在 MobileNetV2 基礎(chǔ) 上引入 ACAM 和 CFP 的同時(shí)，對(duì)原網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整。具體為，去掉最后一個(gè) Inverted Residuals 模塊即輸入為 7×7×160 的 Inverted Residuals 模塊，加入注意力機(jī)制 ACAM 和特征融合 CFP。

　　MobileNet 系列[29-31]是由 Howard 等人提出的，一種有效的輕量級(jí)網(wǎng)絡(luò)，雖然相較其他網(wǎng)絡(luò)犧牲部分準(zhǔn)確度，但在計(jì)算量和參數(shù)量上有著巨大優(yōu)勢(shì)。在 224×224 大小 RGB 圖片上 MobileNetV2 參數(shù)量是 VGG16 參數(shù)量的 1.72%，是 ResNet-18 參數(shù)量的 20.63%。故 MobileNet 系列及變體能夠有效的部署在移動(dòng)端。本文主要針對(duì) MobuleNetV2 進(jìn)行改進(jìn)。 r-mobileNetV2 的網(wǎng)絡(luò)結(jié)構(gòu)如表 1 所示：

　　input 代表輸入特征圖大小，operator 代表對(duì)輸入特征圖的處理方式，C 代表通道數(shù)，其中 class_num 代表類別數(shù)，t 對(duì)應(yīng)擴(kuò)展因子，S 為 Strides 確定卷積步數(shù)。n 代表重復(fù)次數(shù)。當(dāng) n 大于 1 時(shí)，每組的第一個(gè) bottleneck 中卷積 S 為表中的值，其他默認(rèn) S 取 1。一組 bottleneck 構(gòu)成一個(gè) Inverted Residuals 模塊。

　　r-mobilenetv2 在每個(gè) Inverted Residuals 模塊中 Strides 等于 1、等于 2 時(shí)的共同部分后添加 ACAM，最后兩個(gè) Inverted Residuals 模塊中引入 CFP。加入 ACAM 的位置如圖 5 所示。

　　3 實(shí)驗(yàn)與分析

　　本文的實(shí)驗(yàn)硬件環(huán)境為 Inter(R) Xeon(R) CPU E5-2640 v4@ 2.40GHz, GPU為一塊顯存11G的GTX 1080Ti。軟件環(huán)境為 Ubuntu16.04, Keras2.2.2。使用 RMSprop 對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，初始學(xué)習(xí)率為 0.001，權(quán)重衰減系數(shù)為 1e-6。batch-size 設(shè)為 64，若 10 個(gè) epoch 測(cè)試集準(zhǔn)確率沒(méi)有提升，學(xué)習(xí)率衰減為原來(lái)的十分之一，30 個(gè) epoch 測(cè)試集準(zhǔn)確率沒(méi)有提升，程序停止。

　　3.1 數(shù)據(jù)來(lái)源及預(yù)處理

　　本文在 LaRED[32](large RGB-D extensible hand gesture dataset)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)測(cè)評(píng)，LaRED 數(shù)據(jù)集共有 27 種基礎(chǔ)手勢(shì)，含 242900 張圖片。27 種基礎(chǔ)手勢(shì)如圖 6 所示。每個(gè)基礎(chǔ)手勢(shì)取三個(gè)朝向，分別為基礎(chǔ)手勢(shì)、基礎(chǔ)手勢(shì)繞 X 軸旋轉(zhuǎn) 90 度、基礎(chǔ)手勢(shì)繞 X/Y 軸各旋轉(zhuǎn) 90 度的手勢(shì)。從數(shù)據(jù)集中選取部分手勢(shì)如圖 7 所示。

　　原始數(shù)據(jù)集為按幀采集的連續(xù)序列，相鄰幀圖片近似。故每 15 幀取一張圖片，對(duì)數(shù)據(jù)集進(jìn)行篩選，同時(shí)只利用數(shù)據(jù)中的 RGB 信息。其訓(xùn)練集含 12955 張圖片，測(cè)試集含 3239 張圖片。對(duì)于處理好的圖片采取 RGB 的方式輸入，利用 ImageNet 中圖片均值進(jìn)行去均值。送到后續(xù)網(wǎng)絡(luò)中進(jìn)行分類。

　　3.2 注意力機(jī)制 ACAM 實(shí)驗(yàn)分析

　　本文首先在不同網(wǎng)絡(luò)模型上驗(yàn)證本文提出注意力機(jī)制的適用性，然后在 MobileNetV2 網(wǎng)絡(luò)的基礎(chǔ)上，添加不同注意力模型與本文提出的注意力模型對(duì)比，綜合驗(yàn)證 ACAM 的有效性。

　　網(wǎng) 絡(luò) 選取所選網(wǎng) 絡(luò) ResNet-18[33] ， ShuffleNetV2[34]，MobileNetV2。實(shí)驗(yàn)結(jié)果由表 2 所示，表中顯示有網(wǎng)絡(luò)模型、參數(shù)量和 Top1 錯(cuò)誤率。

　　從表 2 可以看出，本文提出的 ACAM 雖然僅引入較少參數(shù)，但在不同網(wǎng)絡(luò)模型的準(zhǔn)確率上均有百分之一左右的提升，證明了 ACAM 模塊的適用性。在 ResNet-18 上錯(cuò)誤率降低 1.57%，參數(shù)量增加 214。在 ShuffleNetV2 上錯(cuò)誤率降低 0.77%，參數(shù)量增加 864。在 MobileNetV2 上錯(cuò)誤率降低 0.98%，參數(shù)量增加 892。

　　對(duì)比三種不同網(wǎng)絡(luò)及加入 ACAM 的表現(xiàn)， MobileNetV2不管從Top1 錯(cuò)誤率還是參數(shù)量均有明顯優(yōu)勢(shì)。從 Top1 錯(cuò)誤率看，MobileNetV2+ACAM 的 Top1 錯(cuò) 誤率比 ResNet-18 降低 0.31% ，比 ShuffleNetV2+ACAM 降低 0.92%;從參數(shù)量上看， MobileNetV2+ACAM 參數(shù)量?jī)H為 RestNet-18 的 20.64%，為 ShuffleNetV2+ACAM 的 57.18%。綜合考慮在 MobileNetV2 基礎(chǔ)上進(jìn)行實(shí)驗(yàn)。

　　為驗(yàn)證 ACAM 模塊的有效性，以 MobileNetV2 為例，在 BAM(bottleneck attention module)、CBAM ( convolutional block attention module )、 ECA (efficient channel attention)上與 ACAM 進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果由表 3 所示，表中顯示網(wǎng)絡(luò)模型、參數(shù)量和 Top1 錯(cuò)誤率。從表 3 可以看出，在 MobileNetV2 上，不同注意力模型對(duì)于手勢(shì)識(shí)別結(jié)果均有貢。相較 MobileNetV2 基礎(chǔ)網(wǎng)絡(luò)，MobileNetV2+BAM 參數(shù)量增加 157400，在 MobileNetV2 參數(shù)量的基礎(chǔ)上增加 6.81%。MobileNetV2+CBAM 參數(shù)量增加 60,286，在 MobileNetV2 參數(shù)量的基礎(chǔ)上增加 2.61%。 MobileNetV2+ECA 參數(shù)量?jī)H增加 59，增加參數(shù)量相對(duì) MobileNetV2 參數(shù)量可忽略不計(jì)。本文提出的 ACAM 與 MobileNetV2 結(jié)合后參數(shù)量為 2,311,703，相較 MobileNetV2 參數(shù)量增加 892，相當(dāng)于在 MobileNetV2 參數(shù)量基礎(chǔ)上增加 3.86e-4。不考慮錯(cuò)誤率情況下，就引入?yún)?shù)量進(jìn)行比較，BAM 引入?yún)?shù)量最多，CBAM 次之，ACAM 和 ECA 引入?yún)?shù)量相對(duì)較少。綜合 Top1 錯(cuò)誤率和模型參數(shù)量?jī)蓚€(gè)衡量標(biāo)準(zhǔn)考慮，本文提出的 ACAM 結(jié)果更優(yōu)。

　　3.3 改進(jìn)網(wǎng)絡(luò)實(shí)驗(yàn)分析

　　將本文提出的注意力機(jī)制與特征融合模塊加入 MobileNetV2 中，并對(duì) MobileNetV2 進(jìn)行修改， mobilenetv2 為直接在 MobileNetV2 上修改后的網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果如表 4 所示。

　　首先在 MobileNetV2 基礎(chǔ)上進(jìn)行刪減，刪減后 mobilenetv2 參數(shù) 量減少 900,480 ，相當(dāng) 于 MobileNetV2 參數(shù)量的 38.97%。mobilenetv2 在減少參數(shù)量的同時(shí)準(zhǔn)確率提升，Top1 錯(cuò)誤率減少 0.3%。實(shí)驗(yàn)說(shuō)明刪減后的網(wǎng)絡(luò)更適合手勢(shì)識(shí)別。然后在 MobileNetV2 和 mobilenetv2 上添加 CFP 和 ACAM。添加 CFP 后兩種不同網(wǎng)絡(luò) MobileNetV2+CFP 和 mobilenetv2+CFP Top1 錯(cuò)誤率均降低 1%左右，但參數(shù)量大幅上升，相較原基礎(chǔ)網(wǎng)絡(luò)，參數(shù)量分別增加 58.96% 、 19.27% 。添加 ACAM 后， mobilenetv2+ACAM 相較 MobileNetV2+ACAM Top1 錯(cuò)誤率更低，在參數(shù)量更少情況下，Top1 錯(cuò)誤率降低 0.53%。通過(guò)上述可得 CFP、ACAM 對(duì)手勢(shì)識(shí)別任務(wù) 是有效的。最后將 CFP 和 ACAM 加入 MobileNetV2 和 mobilenetv2 中，形成 R-MobileNetV2 和 r-mobilenetv2。其中 R-MobileNetV2 以未經(jīng)刪減 MobileNetV2 為基礎(chǔ) ， r-mobilenetv2 以刪減后 MobileNetV2 為基礎(chǔ)。最終 R-MobileNetV2 相對(duì) MobileNetV2 Top1 錯(cuò)誤率降低 1.26%，參數(shù)量相對(duì) MobileNetV2 增加 59.00%，達(dá)到了 3,674,263。 r-mobilenetv2 相對(duì) mobilenetv2 Top1 錯(cuò)誤率降低 1.52%，參數(shù)量相對(duì) mobilenetv2 增加 11.79%，達(dá)到 1,682,849。r-mobilenetv2 相對(duì) R-MobileNetV2 Top1 錯(cuò)誤率降低 0.56%，參數(shù)量?jī)H為 R-MobileNetV2 的 45.80%。r-mobilenetv2 相對(duì) MobileNetV2 Top1 錯(cuò)誤率降低 1.82%，達(dá)到 1.17%，參數(shù)量?jī)H為 MobileNetV2 的 72.83%。綜上在對(duì)比實(shí)驗(yàn)中充分驗(yàn)證了 CFP 和 ACAM 及 r-mobilenetv2 的有效性。

　　此外，在 r-mobilenetv2 網(wǎng)絡(luò)中，選取測(cè)試集數(shù)據(jù)制作混淆矩陣。結(jié)果如圖 8 所示，橫坐標(biāo)為預(yù)測(cè)類別，縱坐標(biāo)為真實(shí)類別。在 27 種手勢(shì)中，基本完全預(yù)測(cè)正確。從圖 8 可以看出，r-mobilenetv2 在手勢(shì)識(shí)別中有著優(yōu)異的表現(xiàn)。

　　4 結(jié)束語(yǔ)

　　本文結(jié)合注意力機(jī)制和特征融合，提出一種輕量級(jí) 網(wǎng) 絡(luò) 靜態(tài) 手勢(shì) 識(shí) 別算法 r-mobilenetv2 。 r-mobilenetv2 能夠有效提取特征解決特征表征不足的問(wèn)題，提高手勢(shì)識(shí)別精度。結(jié)合了空間注意力和通道注意力模型提出了自適應(yīng)一個(gè)自適應(yīng)卷積注意力模塊，對(duì)網(wǎng)絡(luò)提取特征進(jìn)行選擇性輸入;針對(duì)高級(jí)語(yǔ)義特征含有分類信息并不完全的現(xiàn)狀，提出分類特征金字塔。通過(guò)實(shí)驗(yàn)證實(shí)自適應(yīng)卷積注意力模塊及分類特征金字塔的有效性。最后將自適應(yīng)卷積注意力模塊和分類特征金字塔結(jié) 合引入 MobileNetV2 中，提出一種新的輕量級(jí) 網(wǎng) 絡(luò) r-mobilenetv2。相較為 MobileNetV2，r-mobilenetv2 參數(shù)量降低了 27.20%，Top1 錯(cuò)誤率降低了 1.82%。準(zhǔn)確達(dá)到 98.83%。在后續(xù)工作可以從損失函數(shù)、卷積方式入手對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn)，進(jìn)一步提高網(wǎng)絡(luò)識(shí)別精度及泛化性能。

上一篇：人腦的寄生蟲(chóng)：電子游戲的進(jìn)化

下一篇：基于改進(jìn)粒子群算法的解耦控制研究與仿真

相關(guān)論文推薦

熱度：54℃信令監(jiān)控系統(tǒng)中數(shù)據(jù)存儲(chǔ)檢索功能
熱度：64℃基于遺傳算法的計(jì)算機(jī)網(wǎng)絡(luò)安全路
熱度：195℃職稱論文發(fā)表論當(dāng)下電子商務(wù)的建
熱度：110℃室內(nèi)設(shè)計(jì)與形象傳達(dá)設(shè)計(jì)的聯(lián)系
熱度：140℃試論計(jì)算機(jī)網(wǎng)絡(luò)安全問(wèn)題及其防范
熱度：116℃一種優(yōu)化的核磁共振圖像重建方法
熱度：162℃計(jì)算機(jī)系統(tǒng)安全與計(jì)算機(jī)網(wǎng)絡(luò)安全
熱度：142℃計(jì)算機(jī)頻譜監(jiān)測(cè)系統(tǒng)在衛(wèi)星通信的
熱度：104℃計(jì)算機(jī)病毒預(yù)防中“云安全”的應(yīng)
熱度：98℃計(jì)算機(jī)論文投稿云計(jì)算環(huán)境下的數(shù)

論文指導(dǎo) >

SCI期刊推薦 >

論文常見(jiàn)問(wèn)題 >

SCI常見(jiàn)問(wèn)題 >

国产亚洲精品91-国产亚洲精品aa在线观看-国产亚洲精品aa在线看-国产亚洲精品xxx-国产亚洲精品不卡在线

結(jié)合注意力機(jī)制和特征融合的靜態(tài)手勢(shì)識(shí)別