国产亚洲精品91-国产亚洲精品aa在线观看-国产亚洲精品aa在线看-国产亚洲精品xxx-国产亚洲精品不卡在线

樹人論文網一個專業的學術咨詢網站?。。?/div>

基于方向條件的循環一致性生成對抗網絡

來源: 樹人論文網發表時間:2022-01-05
簡要:摘要:為了充分利用非配對數據進行圖像翻譯、減少網絡參數和提高訓練速度,采用條件生成對抗的監督訓練與循環一致性生成對抗的無監督訓練相結合的方法,設計了基于方向條件對偶的生

  摘要:為了充分利用非配對數據進行圖像翻譯、減少網絡參數和提高訓練速度,采用條件生成對抗的監督訓練與循環一致性生成對抗的無監督訓練相結合的方法,設計了基于方向條件對偶的生成網絡,同時采用 Patch 結構的判別器輸出多維判別結果,結合感知損失和同一損失與循環一致損失,設計了更有效的損失函數。通過在相同數據集上與 CycleGAN 進行對比實驗,驗證了所提網絡在非配對圖像翻譯任務上,網絡參數減少 34%,生成圖像的 PSNR 值平均提升 4.9%,SSIM 值平均提升 6.3%,并且有效提升了訓練速度和重建圖像的質量。

  關鍵詞:圖像翻譯;條件對偶;CycleGAN;循環一致損失;無監督學習

基于方向條件的循環一致性生成對抗網絡

  李錫超; 李念 電子設計工程 2022-01-05

  生成對抗網絡[1 (] Generative Adversarial Network, GAN)已延伸到圖像、視頻、自然語言[2] 、語音[3] 等領域。GAN 直接進行采樣學習分布規律,使得生成數據可以逼近真實數據。由于 GAN 生成數據沒有針對性的指導和約束條件,因此原始 GAN 生成的圖像是隨機的。條件生成對抗網絡[4 (] Conditions GAN, CGAN)在原始 GAN 的基礎上加入了對生成器的約束條件,使得生成的數據變得可控。

  圖像翻譯指在圖像源域和目標域建立映射關系,在保留源域內容的情況下,將圖像轉換成目標圖像的風格而不改變源域圖像的內容。CGAN 解決了圖像生成的約束問題,為后來的各種圖像翻譯網絡提供了思路。配對的圖像翻譯網絡 Pix2pix[5] 是一種基于 CGAN 的有監督模型,利用配對數據集進行訓練,使圖像翻譯的質量和穩定性都得到了大幅提升。循環一致性對抗生成網絡[6 (] Cycle-Consistent GAN,CycleGAN)是基于機器翻譯中對偶的思想[7] ,將非配對的訓練數據用于圖像翻譯,取得了不錯的效果,這很大程度上解決了圖像翻譯中配對數據獲取困難的問題。但 CycleGAN 存在收斂慢、參數量大的問題。

  針對配對數據獲取困難,且現有非配對方法訓練緩慢、參數量大的問題,該文基于 CycleGAN 中構建對偶任務的思想和 CGAN 的條件約束思想,設計了新的基于方向條件非對稱的生成網絡和條件對偶任務,同時引入同一映射損失[8] 用以約束圖像內容,引入感知損失[9] 保證圖像主體細節在變換前后的穩定性。在與 CycleGAN 的對比實驗中,生成和重建圖像質量以及訓練速度都有所提升,采用了非對稱設計的網絡結構,使得網絡參數大幅減少。

  1 相關工作 1.1 對偶學習

  對偶學習(Dual Learning)是一種半監督[10] 的學習方式,它通過對稱的兩個學習任務互相反饋,可以從未標注的數據中學習。能夠有效利用中間過程產生的偽標簽,甚至在某種程度上可以把對偶學習看作是在把未標注的數據當作標簽數據使用。因此對偶學習可以有效利用未標注的數據,使得對沒有標注的數據進行訓練成為可能。對偶學習最初用于有效利用機器翻譯中的單語 數 據 ,顯 著 降 低 對 平 行 雙 語 數 據 的 要 求 。 CycleGAN 和 DualGAN[11] 將對偶學習應用到圖像翻譯領域。循環一致性的思想基于對偶,被應用于不同領域,如在視覺跟蹤中加強前后一致性,在機器翻譯中通過反向翻譯驗證結果并進行無監督機器翻譯。

  1.2 生成對抗網絡

  GAN 通過零和博弈的對抗過程來生成模型,在網絡中同時訓練兩個模型:一個是用來捕獲數據分布的生成模型,另一個是用來判別數據來自訓練數據還是生成數據的判斷模型。在競爭對抗過程中,生成模型不是為了訓練得到與特定圖像的最小距離,而是為了騙過判別模型,這使得模型能夠以無監督的方式學習。

  CGAN 擴展了 GAN,使得生成對抗網絡能夠根據一些額外的條件信息(比如類別標簽)來調整生成器和判別器,使得定向圖像生成和圖像轉換成為可能。Pix2pix 基于 CGAN 進行一系列改進,拋棄了傳統算法[12] 手工建模、需要大量專家知識和設計復雜的損失函數,提出了一個用于解決各類圖像翻譯問題的統一框架。

  1.3 非配對的圖像翻譯方法

  Pix2pix 要求數據必須是有標簽的配對輸入,現實碰到的數據更多是非配對、沒有標簽的,這使得非配對圖像翻譯沒有辦法開展。CycleGAN 基于對偶學習的思想,通過循環一致性損失和對偶網絡保持圖像結構的前后一致,實現了從非配對的圖像中學習映射。

  2 基于方向矩陣的循環一致性生成對抗網絡

  2.1 基于條件的對偶學習網絡

  CycleGAN 形成一組對偶學習關系需要兩組相同且對稱的生成器和判別器。結合 CGAN 對于圖像生成具有方向性和指導性的特性,文中提出基于方向向量的條件對偶學習結構,如圖 1所示。

  在改進的對偶學習任務中,a 和 b 為方向條件(向量),用來指導在生成器中圖像翻譯生成的方向;共用參數的生成器 G 取代 CycleGAN 中對稱的生成器。其中,Y 和 X 可以表示為在方向條件 a 和 b 下由生成器 G 生成的圖像:Y= G(x,a),X= G(y,b) 。同時兩個判別器 DX 和 DY 對兩組映射生成的圖像和源域圖像進行對抗判別。方向矩陣 a 和 b 作為生成器 G 的條件輸入,對輸入的源域圖像 x 或 y 在生成方向上起到指導作用,構成新的非對稱對偶學習任務。通過控制和改變方向向量,達到對在同一個生成器上就能控制圖像翻譯生成的目的,同時改進的對偶結構相比 CycleGAN 更加精簡。

  2.2 生成器網絡結構 2.2.1 生成器結構

  生成器主要結構如圖 2 所示,包括編碼器、轉換器、解碼器。其中編碼器用于提取源域圖像的特征,轉換器用于完成風格特征的轉換,解碼器用于生成轉換之后的圖像,使其具有源域的內容和目標域的風格。生成器網絡使用了 U 型結構,將 ResNet[13] 中跳 層 連 接 的 殘 差 結 構 改 為 更 靈 活 的 殘 差 模 塊(Residule_block)。改進的生成器結構如圖 3 所示。對于 256×256 分辨率的圖像,編碼器部分采用多層卷積層+實例正則化+ReLU 激活函數,獲取源域圖像特征編碼;轉換器部分使用 9 個殘差模塊,特征層跳躍連接,可以較好地結合前一層的特征,完成圖像風格從源域到目標域的翻譯;解碼器部分利用反卷積層從高維度特征向量中還原出低級特征,使生成圖像的風格更接近目標域風格。

  經過編碼、轉碼和解碼過程之后生成的圖像在損失函數的約束下就可以在理論上完成圖像風格從源域到目標域的遷移。

  2.2.2 實例正則化

  圖像翻譯中的生成結果主要依賴于某個圖像實例,而一般的批量正則化(Batch Normalization)則是對每個批次的圖像進行標準化,更注重數據分布的一致,所以批量正則化不適合圖像翻譯中對生成圖像 進 行 標 準 化 。 在 圖 像 翻 譯 中 使 用 實 例 正 則 化(Instance Normalization)不僅可以加快模型收斂速度,而且可以使每個圖像實例保持相互獨立。因此,在生成網絡的標準化過程中該文采用了實例正則化。

  2.3 判別器網絡

  判別器的網絡結構如圖 4 所示。它用來區分輸入的樣本來自真實數據還是生成器生成的數據,其判別作用會激勵生成器生成更加接近目標域的數據。在具體結構設計上,卷積網絡的輸出特征參考 PatchGAN[6] 結構,源域圖像經過 5 次卷積和實例正則化,最終得到一個 32×32×1 的輸出特征向量,而不是將一維輸出作為分類依據。特征向量的每一個維度,代表源域圖像中的一個感受野,保證了生成圖像和源域圖像的語義相似性。

  2.4 循環一致性對抗網絡 2.4.1 對抗損失

  GAN 一般由生成模型和判別模型組成,生成模型的目的是學習數據的分布規律,生成逼近真實數據的圖像;判別模型盡可能區分給定的圖像是否來自真實數據。在不斷地對抗訓練中,兩個模型的能力都會變強,最終達到穩態平衡。在原始 GAN 中,需要優化的目標函數如式(1)所示: min G max D V(D,G) = Ex~pdata(x)[log(D(x))] + Ez~pz(z)[log(1 - D(G(z)))] (1)為學習數據 pdata(x) ,定義了一個先驗輸入噪聲變量 pz(z) ,然后將數據空間映射表示為 G(z) ,其中 G 為生成模型。定義了判別模型 D ,其中 D(x) 表示 x 來自真實數據而不是由生成模型生成的數據的概率。在這個目標函數中,先優化 D 再優化 G ,拆解之后如下: 1)優化判別模型 D,目標函數表示如式(2)所示: max D V(D,G) = Ex~pdata(x)[log(D(x))] + Ez~pZ(z)[log(1 - D(G(z)))] (2)優化判別模型 D 時與生成模型無關。根據函數變化規律,在優化過程中,上式第一項中的 x 來自真實樣本的判別結果的概率 D(x) 越接近于 1 越好;對于來自生成模型從噪聲 z 中生成的假樣本 G(z) ,需要使優化的判別結果 D(G(z)) 越接近于 0越好。

  2)優化生成模型 G,目標函數表示如式(3)所示:min G V(D,G) = Ez~pz(z)[log(1 - D(G(z)))] (3)優化生成模型時,與真實樣本 x 無關。這時只有來自噪聲 z 生成的假樣本 G(z) ,生成器的優化目標是使假樣本 G(z) 的判別結果的概率 D(G(z)) 越接近于 1 越好。如此,為了使總的優化目標的損失函數表達一致,故表示為 1 - D(G(z)) 的形式,這樣就成了開始表示形式的目標函數了。

  對于文中提出的基于條件矩陣 a 和 b 的循環一致 性 對 抗 生 成 模 型 來 說 ,生 成 模 型 可 以 表 示 為 Y= G(x|a) 和 X= G(y|b) 。 按 照 對 抗 生 成 損 失 的 思想,使判別模型最大化,生成模型最小化。對于 x → y 映射的對抗損失函數如式(4)所示: LGAN1 = Ey~pdata(y)[log(DY (y))] + Ex~pdata(x) ■ ■ ■ ■ log(1 - DY (G(x|a))) (4)對于 y → x 映射的對抗損失函數如式(5)所示: LGAN2 = Ex~pdata(x)[log(DX(x))] + Ey~pdata(y) ■ ■ | ■ ■ log | ■ ■ | ■ ■ 1 - D | X ■ ■ ■ ■ G(y|b) (5)

  2.4.2 循環一致性損失

  對抗訓練能夠從理論上學習到生成器 G 的映射,產生與目標域相同分布的輸出。但在非配對數據訓練中,當網絡容量足夠大的時候,會將相同的圖像映射到目標域中任意隨機的圖像上,其中任何一個學習都可以產生與目標分布匹配的輸出。因此,僅使用對抗損失,不能保證學習的函數能將單個的輸入 xi 映射到期望的輸出 yi 。為了進一步減少可能的映射空間,映射函數必須是循環一致的。對于源域 X 中的每一張圖像 x ,圖像經過循環轉換網絡之 后 ,可 以 還 原 出 源 域 圖 像 x 。 將 x → G(x|a) → G(G(x|a)|b) ≈ x 稱 為 循 環 一 致 性 。 同 樣 的 ,有 y → G(y|b) → G■ ■ ■ ■ G(y|b) |a ≈ y。因此定義了循環一致性損失,如式(6)所示: Lcycle = Ex~pdata(x) ■ ■ | ■ ■ | ‖ ‖ ‖ ‖ ‖ G ‖ (G(x|a)|b) - x + Ey~pdata(y) ■ ■ | ■ ■ | ‖ ‖ ‖ ‖ ‖ G ‖ ■ ■ ■ ■ G(y|b) |a - y (6)循環一致性損失能夠保證輸入和生成的輸出為一對一的映射關系。

  重建的圖像與輸入的圖像匹配的映射關系如圖 5所示。

  2.4.3 同一映射損失和感知損失

  由于不同數據集上對于圖像翻譯的要求不同,僅依賴對抗損失和循環一致損失,不足以滿足圖像翻譯的要求,因此加入同一映射損失用以約束在原圖上的改動。對于生成器 G(x|a) 定義如式(7)所示: Liml(Gx → y) = Ey~pdata(x)‖Gx → y(x) - y ‖1 + Ex~pdata(x)‖Gy → x(y) - x‖1 (7)文獻[8]利用感知損失來增強圖像細節,故引入感知損失 Lpl ,使生成的圖像在映射出目標域風格的同時保留細節,不產生模糊。感知損失定義如式(8)所示: Lpl = 1 DHW ■ ■ | | | ■ ■ | | | ‖ φ(Gx → y(x)) - φ(y)‖ 2 2 +‖ φ(Gy → x(y)) - φ(x)‖ 2 2 (8)其中,φ 為特征提取函數,一般使用 VGG16或者 VGG19 來提取。 D、W 和 H 分別表示特征的深度、寬度和高度。文中使用了 VGG16 預訓練模型的深度特征向量計算感知損失,各部分系數比例如式(9)所示: Lpl = Lpl(block1conv1) + 2 × Lpl(block2conv1) +5 × Lpl(block5conv1) (9)這樣整個網絡的損失函數如式(10)所示: L = LGAN1 + LGAN2 + Lcycle + Liml + Lpl (10)

  3 實驗結果與分析 3.1 實驗數據集和實驗設置

  為驗證改進網絡能否在非配對數據上完成圖像翻譯的任務,以及為對比改進網絡與基準 CycleGAN 網絡的性能,選擇相同數據集分別進行 300 次迭代訓練。這里使用的人像風格數據為 Face2Sketch(以下簡稱 F2S),數據集樣本如圖 6 所示。為了構造逼真的人臉數據集,通過混合網絡爬蟲獲取的證件照,基于 StyleGAN[14] 生 成 脫 敏 數 據 ,并 進 行 對 齊 和 使 用PortraitNet[15] 去除背景(如圖 6 第 1 行)。非配對的黑白人像風格數據由 APDrawingGAN[16] 生成(如圖 6 第 2 行)。形成的訓練數據包含 2 000 張彩色脫敏證件圖片和 2 000張非配對關系的人像風格圖片。

  3.2 實驗結果

  分別用 CycleGAN、該文方法但僅使用對抗損失+循環一致性損失(以下簡稱該文方法(1))、該文改進的方法結合感知損失和同一損失并對參數進行調整(以下簡稱該文方法(2)),進行圖像翻譯和重建實驗,實驗結果如圖 7 所示。其中,第一行為分別用 3 種方法進行圖像翻譯生成的實驗結果;第三行為由生成圖像進行重建的結果。

  從實驗結果對比可以發現,在同樣的實驗條件下,采用 CycleGAN 和該文方法(1)的細節表現較差(生成人像眼睛模糊、背景顏色失真)。該文方法(2)可以更好地完成從源域到目標風格域的轉換,同時能夠在重建源域時生成相似度更高、圖像質量更高的重建結果。

  為了量化具體的提升,在相同實驗條件下,進行了 300 次迭代。使用 SSIM(結構相似性)和 PSNR(圖像信噪比)圖像質量指標進行評價。比較結果如表 1 所示,其中 a→b為翻譯生成結果,b→a為重建結果。

  該文改進網絡對比 CycleGAN,3 種方法的生成損失收斂對比如圖 8 所示,該文方法(2)下降速度更快,最終平穩值更小,表明對應網絡的方法速度越快生成質量越好。

  文中所提方法在進行圖像翻譯時,與 CycleGAN 方法相比,在 Inception Score 獲得更高得分。同樣進行 300 次 迭 代 ,計 算 衡 量 圖 像 清 晰 度 的 Inception Score結果,該文方法(1)可以在 F2S數據上獲得更高的得分。并且由于設計了非對稱結構的生成器,可以在不同方向條件下共享網絡參數,因此網路參數由 CycleGAN 的約 112 M 減少為約 74 M,參數量下降 34%。3 種方法的 Inception Score 和網絡參數量對比如表2所示。

  4 結 論

  該文研究了圖像翻譯的發展,針對現有非配對圖像翻譯方法 CycleGAN 進行改進,在圖像生成的編碼和解碼過程中使用基于方向條件的方法代替原有的循環對偶網絡,減少了 36%的參數量,降低了計算量;設計了共享參數的非對稱生成器,通過添加感知損失和同一性損失,提高了圖像生成質量,獲得了更加相似的重建結果。實驗表明,所提網絡能夠加快生成器的訓練速度,獲得了更小的穩定收斂,圖像翻譯結果保留更多的細節,重建結果與源域圖像具有更高的相似度。和 CycleGAN 相比,文中提出的改進網絡在相同數據集上的表現更好,在 SSIM、PSNR 和 Inception Score 上獲得了更好的評估參數,觀察結果表明,也獲得了更好的圖像質量。

主站蜘蛛池模板: 久久亚洲这里只有精品18 | 在线精品视频成人网 | 大杳蕉伊人狼人久久一本线 | 女人18毛片a级毛片免费视频 | 久久国产精品免费看 | 亚洲黄色高清 | 国产精品国产三级国产专区不 | 1024国产高清精品推荐 | 国产免费播放一区二区三区 | 久久亚洲欧美日本精品品 | 鲁一鲁中文字幕久久 | 国产福利在线永久视频 | 午夜影院毛片 | 国产vvv在线观看 | 日韩成人高清 | 9久9久女女免费精品视频在线观看 | 大片免费播放 | 精品在线不卡 | 国产精品免费大片一区二区 | 精品一本久久中文字幕 | 亚洲伊人精品综合在合线 | 品爱网在线观看视频免费视频 | 日韩中文字幕第一页 | 国产精品美女自在线观看免费 | 久久精品国产免费观看99 | 岛国大片在线观看免费版 | 一级毛片国产真人永久在线 | 成人永久免费 | 色婷婷综合网 | 最新福利小视频在线播放 | 综合图片区 | 色狠狠成人综合网 | 国产精品久久久久影院免费 | 热伊人99re久久精品最新地 | 欧美一区二区三区视频在线观看 | 久久99精品国产99久久 | 日韩一级欧美一级一级国产 | 亚洲午夜一区二区三区 | 国产精品一区二区在线观看 | 色青青草原桃花久久综合 | 亚洲免费一区 |