摘要邏輯推理是人類智能的核心,是人工智能領域一個富有挑戰性的研究課題。人類的IQ測試問題是衡量人類智商水平高低和邏輯推理能力的常用手段之一,如何讓計算機學習擁有類似人類的邏輯推理能力是一個非常重要的研究內容,其目的是使計算機從給定的圖像中直接學習邏輯推理模式,而無需事先為計算機設計先驗推理模式。基于此目的,提出了一種新的數據集Fashion-IQ,該數據集中的每個樣本包含7張輸入圖片和1個標簽,這7張圖片分別為3張包含一種或多種邏輯的問題輸入圖片和4張選項輸入圖片,目的是利用機器學習3張問題輸入圖片中包含的邏輯來預測下一張圖片,從而選擇正確的選項。為了解決這個問題,提出了一種時序關系模型。針對每個選項,該模型首先使用卷積神經網絡提取前3張輸入圖片和選項圖片的空間特征;接著采用關系網絡將這4個空間特征兩兩組合;然后采用LSTM提取前3張問題輸入圖片和該選項的時序特征,將時序特征與組合好的空間特征相結合得到時序-空間融合特征;最后對前3張輸入圖片與每個選項得到的時序-空間融合特征進行進一步推理,采用softmax函數進行打分,得分最高的選項就是正確答案。實驗結果證明,該模型在此數據集上實現了比較高的推理準確度。
本文源自張姝楠; 曹峰; 郭倩; 錢宇華, 計算機科學 發表時間:2021-05-14《計算機科學》由國家科技部主管,國家科技部西南信息中心主辦,系“中文科技核心期刊”、“中國科技論文統計與分析用期刊”、“中國科學引文數據庫來源期刊”、“中國期刊方陣雙 效期刊”、“中國計算機學會會刊”、“重慶市優秀期刊”。
關鍵詞:邏輯推理;IQ測試;推理模式;時序關系網絡;時序-空間融合特征
邏輯推理是人類智能的核心[1],也是人工智能領域的一個重要而富有挑戰性的研究課題[2]。近年來,研究人員在圖像分類[3]、檢測和分割[4]等標準識別任務方面取得了顯著進展,但當前的識別系統缺乏推理能力,人工智能的目標之一是開發具有類似人類邏輯推理能力的機器,因此有必要來深入理解機器中的學習和推理。智商(IQ)測試是定義和測試人類計算和邏輯理解能力的最常用方法之一[5],也是評估人類智力的公認方法。我們想要從視覺智商測試的角度出發來研究機器的推理問題。
深度學習方法最近在一些重要任務上實現了超人水平的性能,如人臉識別[6]和大詞匯量連續語音識別(LVCSR)[7],盡管以上任務可能與人類智能有關,但它們沒有直接測試智力。
文獻[8]使用深度神經網絡的方法來解決旨在測試人類智力的視覺智商(IQ)測試問題,其取得了較好的表現。但是,該工作創建的數據集比較簡單,樣本是一些簡單的線條或者幾何形狀,如圖1所示,在實際的IQ測試的運用中存在局限性,我們需要探索更多具有挑戰性的模式,因此本文基于Fashion-MINIST數據集中的復雜樣式的圖案(該數據集中的樣本是在現實生活中收集的衣服褲子等實物照片經處理而成的灰度圖,在顏色、形狀等方面具有較高的復雜性),設計了一個更為復雜的IQ測試數據集,讓機器來學習推理圖像間的邏輯模式。
文獻[8]采用傳統深度學習卷積神經網絡來學習圖像間的邏輯模式,雖然結果表現較好,但深度學習架構往往是功能強大的可視化處理器,它們可能不是推理對象間關系的最佳選擇。文獻[9]提出了用關系網絡RN來做視覺問答推理問題,將RN作為一個模塊插入到深度學習架構中,以計算對象間的關系,進而提高神經網絡在解決關系推理任務時的性能,最后提高了神經網絡在VQA問題上的準確度。IQ測試任務往往具有時序性,但是RN模型在處理與時序有關的圖像邏輯推理任務時表現不佳。本文提出了一種基于時序關系網絡的邏輯推理模型,來推理與時序有關的圖像邏輯模式,該網絡主要把LSTM提取的時序特征和卷積神經網絡提取的空間特征兩兩組合嵌入到模型中進行進一步的推理。
智商測試測量不同的技能,包括言語智力、數學能力、空間推理、分類能力、邏輯推理等[8]。本文的研究將重點放在發現圖像描述的IQ測試問題中的邏輯模式上,設計的問題包括給定一系列實物圖片,并在它們之間進行相關變換,如圖像間的旋轉問題、尺寸問題、翻轉問題、數量變化問題以及這些問題的相關組合問題等,類似大部分的IQ測試題,該問題存在多個候選答案,其中只有一個候選答案是正確答案,本文提出時序關系網絡來解決這樣的圖像描述的IQ測試問題,并與其他模型方法進行對比。每個問題的示例包括3張問題圖片和4張候選圖片,其中這3張問題圖片是依次按照某種變換產生的,模型通過推理問題圖片之間存在的邏輯模式而選出最有可能的候選答案。
本文在以下變換的一系列圖像中訓練了網絡。
(1)旋轉:相比先前的圖案,每個圖案都以恒定的角度進行旋轉。
(2)尺寸:相比先前的圖案,每個圖案都以固定的縮放因子進行擴大或縮小。
(3)翻轉:每個圖案依次旋轉并翻轉到水平方向或垂直方向上。
(4)數量:每張圖片比上一張圖片包含更多的圖案,如圖片包含兩個小圖案,則第二張和第三張圖片將分別包含3個小圖案和4個小圖案。
(5)組合:將以上的變換加以組合,如每個圖案在依次旋轉的同時也依次放縮,圖案之間的變換可能是2種、3種或4種基本變換的組合,共有11種組合方式。
本文進行了大量的實驗,測試了幾種不同的模型在此類圖像描述的IQ測試問題中的性能,在包含以上所有變換的數據集上訓練了網絡。這項研究使我們更進一步地將機器學習智能與人類智能進行比較,幫助我們理解機器的推理能力。
1相關工作
1.1相關視覺推理任務
Raven提出漸進矩陣Raven’sProgressiveMatrices(RPM)(見圖2)[10],為考生提供非語言選擇題來進行智力測驗。給定8個形狀,受試對象必須識別出丟失的部分,RPM背后的前提很簡單:必須推理感知上明顯的視覺特征(如形狀位置或線條顏色)之間的關系,以選擇完成矩陣的圖像。RPM對抽象的言語、空間和數學推理能力具有很強的診斷力,甚至可以區分受過高等教育的人群[11]。文獻[12]提出通過計算解決Raven的漸進矩陣問題。這項工作的重點是使用簡單的分類器找到用于解決Raven漸進矩陣的特征表示。盡管他們的研究是第一個將這些問題作為計算問題解決的研究,但他們并未發布足夠的實驗結果來驗證其方法。本文方法是不同的,使用神經網絡與分類器一起自動學習表示,而不是手工制作特征表示并且本文方法更通用。
文獻[13]提出自動解決智商測試的口頭推理部分這一任務,使用手工功能的機器學習方法能夠自動解決以同義詞和反義詞以及單詞類比為特征的口頭推理問題。這條工作線與本文的研究有關,因為它解決了“類比”問題,即受試者需要掌握單詞之間的轉換規則并對其進行概括。它是處理語言轉換,而不是視覺轉換,本文研究的是序列圖像間的視覺推理任務。
文獻[14]分析了DNN學習算術運算的能力。在這項工作中,網絡學習了基于端到端視覺學習的數字加法的概念,這表明了在沒有先驗基本概念(例如“數字”或“加法”)的情況下學習算術轉換的可能性。這為本文研究讓機器在不接受先驗推理模式的前提下從圖像中直接學習邏輯模式提供了參考。
文獻[15]提出了一種用于視覺推理的模型,該模型包括一個程序生成器和一個執行引擎,該程序生成器構造要執行的推理過程的顯式表示,該執行引擎執行生成的程序以產生答案。但是,這樣的推理需要為模型提前提供一些推理模式或推理過程的顯式表示,這與人類的實際推理是不相符的。本文研究旨在讓模型直接從圖像中學習邏輯推理模式,而無需事先設計先驗推理模式,這將更符合人類的推理過程。
1.2關系網絡RN
關系網絡RN[9]是一種神經網絡模塊,是一種用于計算對象間關系的專用模塊,可以被嵌入到廣泛的深度學習架構,以顯著提高神經網絡在解決需要豐富關系推理任務時的性能。其明確關注于關系推理,其計算關系的能力被融入RN架構而無需學習,可以整合圖像中提取出的所有對象之間的關系并進行處理,以找到圖像間的邏輯模式。RN為靈活的關系推理提供了更強大的機制。
關系網絡適用于推理對象間的關系,但是在處理與時序有關的圖像邏輯推理任務時表現不佳,本文提出了一種基于時序關系網絡TemporalRelationNetwork(TRN)的邏輯推理模型,來學習推理與時序有關的圖像邏輯模式。
2創建數據集
本文評估了多選題模式的IQ測試場景:模型接收7個輸入圖像,3個上下文面板和4個候選答案選項。在訓練時,它會收到與正確答案相對應的索引。模型選擇最可能的選項作為模型的答案。
用以下方式形成問題:對于每個樣本問題,共設置旋轉、尺寸、反射、數量、組合5種變換。然后,從Fashion-MINST[16]數據集中隨機選擇一張圖片。我們將選擇的變換應用于選擇的圖片中,依次產生前3張上下文面板。接著使用該變換產生正確的候選答案選項,以及使用不正確的變換產生另外3張錯誤的候選答案選項。
本文的數據集中每張圖片的大小都是64×64的灰度圖,而Fashion-MINST[16]數據集中每張圖片的大小是28×28的灰度圖,因此從該數據集中隨機選擇一張圖片后,需要對該圖片進行預處理,再進行相關的操作。
(1)旋轉Ro:隨機選擇一個角度θ∈[0..2π],并將圖案旋轉θ。錯誤的答案是通過不同角度進行旋轉或不同操作而產生的。旋轉變換Ro的示例如圖3(a)所示。
(2)尺寸Re:隨機選擇比例參數μ∈[0.5..1.5],并將圖案進行縮放。錯誤的答案是通過不同的縮放比例或不同的操作而產生的。尺寸變換Re的示例如圖3(b)所示。
(3)翻轉Fi:將隨機選擇的圖案翻轉到水平或垂直方向上,錯誤的答案是通過不同方向進行翻轉或不同操作而產生的。翻轉變換Fi的示例如圖3(c)所示。
(4)數量Ad:隨機選擇一個圖案使它的數目依次遞增,錯誤答案將顯示錯誤的數目。數量變換Ad的示例如圖3(d)所示。
(5)組合:將以上4種變換進行組合,如將旋轉和尺寸變換同時應用到圖案中來生成每個選項,有Ro_Re,Ro_Fi,Ro_Ad,Re_Fi,Re_Ad,Fi_Ad,Ro_Re_Fi,Ro_Re_Ad,Ro_Fi_Ad,Re_Fi_Ad,Ro_Re_Fi_Ad這11種變換的組合。旋轉和尺寸變換組合Ro_Re的示例如圖3(e)所示,旋轉和數量變換組合Ro_Ad的示例如圖3(f)所示,旋轉和翻轉變換組合Ro_Fi的示例如圖3(g)所示,尺寸和翻轉變換組合Re_Fi的示例如圖3(h)所示,尺寸和數量變換組合Re_Ad的示例如圖3(i)所示,翻轉和數量變換組合Fi_Ad的示例如圖3(j)所示,旋轉、尺寸和數量變換組合Ro_Re_Ad的示例如圖3(k)所示,旋轉、尺寸和翻轉變換組合Ro_Re_Fi的示例如圖3(l)所示,旋轉、翻轉和數量變換組合Ro_Fi_Ad的示例如圖3(m)所示,尺寸、翻轉和數量變換組合Re_Fi_Ad的示例如圖3(n)所示,旋轉、尺寸、翻轉和數量4種變換組合Ro_Re_Fi_Ad的示例如圖3(o)所示。根據上述規則,在每種變換上自動生成5萬張用于訓練的圖像和1萬張用于測試的圖像。
3實驗與結果
本文將在Fashion_IQ數據集上比較時序關系網絡TRN和WReN模型、ResNet模型、LSTM模型的推理準確度。
3.1模型與實驗設置
首先將圖像序列輸入到模型中,讓模型在不知道圖像間關系和圖像內容的意義的前提下自動學習出其內在的邏輯模式,從而選擇出正確的候選答案。所有模型均以7張圖像為輸入,這些圖像都是大小為64×64的灰度圖,這7張圖像中前3張是上下文面板,后4張是候選答案面板,模型從這4張候選答案面板中選擇最可能的選項作為模型的答案。模型均使用交叉熵損失作為優化函數,使用SGD作為優化器,批處理大小為128,最后在測試集上報告準確性。
(1)LSTM模型。本文使用標準的LSTM網絡結構,由于LSTM是按順序地接收輸入數據,而本文要處理的IQ測試問題就與序列有關,輸入圖片之間的前后順序若改變將無法推理出正確的答案,因此將每個圖片先壓平為一個向量,再按順序將向量輸入到LSTM中,在LSTM層之后連接一個使用softmax函數的全連接層作為輸出層。模型的詳細參數如表1所列。
(2)ResNet模型。本文使用標準的ResNet-50模型架構,網絡的最后一層使用softmax激活函數的全連接層作為輸出層。模型的詳細參數如表2所列。
(3)WReN模型。WReN模型[17]使用關系網絡模塊RN[9]來推理每個圖像之間的關系,模型輸出每個候選答案圖像的得分,再使用softmax函數將得分最高的選項作為正確答案。WReN模型如圖4所示。該模型先通過CNN獨立處理每個上下文面板和一個候選答案選擇面板,以生成4個向量嵌入;然后將這組嵌入傳遞給RN模塊,其輸出是單個sig-moid單元,共有4個候選答案,因此要經過4次這樣的傳遞;最后通過softmax函數來確定模型的預測答案。該模型的詳細參數如表3所列。
表3中用[x,y,z,w]來表示CNN每一層卷積核的個數,如x表示第一層的卷積核個數,y表示第二層的卷積核個數,z表示第三層的卷積核個數,w表示第四層的卷積核個數。
(4)TRN模型。IQ測試問題具有以下兩種特點:首先在每一張圖片內的目標之間存在空間邏輯關系,如圖片內部目標之間的位置排列;其次在圖片與圖片之間存在時序邏輯關系,如果將圖片的前后順序顛倒,那么圖片之間的時序邏輯關系將發生混亂,以至于無法推理出正確的答案。LSTM模型是一種改進之后的循環神經網絡,可以解決長時依賴問題,具有推理序列依賴關系的能力和長時記憶功能,可以保存先前學習到的信息使得推理更具有準確性,使得模型可以更關注于有序性的目標推理。因此,本文提出TRN模型,使用RN模塊將CNN提取出的3張上下文圖片和1個候選答案圖片的空間特征兩兩組合,接著采用LSTM提取出3張上下文圖片和1個候選答案圖片之間的時序特征,將時序特征與RN模塊組合好的空間特征相結合得到時序-空間關系特征,并進行進一步的推理,得到該候選答案的得分,共有4個這樣的候選答案,最后使用softmax函數將得分最高的候選答案作為正確答案。TRN模型可以表示為:sk=LRN(γk)=f(∑y,z∈γkgθ(y,z))
其中,γk={x1,x2,x3}∪{ck}∪{lk},ck表示第k個候選答案面板通過CNN處理得到的向量,xi表示第i個上下文面板通過CNN處理得到的向量,lk表示第k個候選答案和3個上下文面板通過LSTM處理所得到的向量,f和gθ是MLP。gθ的輸出稱為“關系”,gθ的作用是推斷兩個對象間的關系。f將這些關系進行整合,然后輸出結果。
TRN模型的結構與圖像間的推理問題能夠很好地匹配,使用gθ形成了上下文面板和候選答案面板之間以及上下文面板之間成對關系的表示,使用f整合了上下文面板和候選答案面板之間以及上下文面板之間關系的信息以提供“得分”。
TRN模型先通過CNN獨立處理每個上下文面板和一個候選答案選擇面板,以生成4個向量嵌入;再加上上下文面板和該候選答案面板通過LSTM處理后得到的向量嵌入,將這組嵌入傳遞給RN,其輸出是單個sigmoid單元,編碼相關答案選擇面板的“得分”score1。4個候選答案經過4次這樣的傳遞,最后通過softmax函數來確定最終的預測答案。TRN模型如圖5所示,其詳細參數如表4所列。
3.2實驗結果及分析
本文實驗先創建了多選題模式的圖像描述的IQ測試數據集———Fashion_IQ數據集,使用ResNet,LSTM,WReN模型以及TRN模型進行實驗,通過對比這幾種模型的準確度來驗證模型的有效性。
(1)同一個變換的不同模型之間準確度的比較
1)從單一變換的準確度來進行比較
從表5和圖6-圖9可以看出,本文的TRN模型在單一變換上的準確度都在80%以上,與其他3個模型相比,TRN模型的總體準確度最好。對于旋轉變換Ro,TRN模型的準確度達到了82%,遠高于其他3個模型的準確度,這說明本文模型將LSTM提取的時序特征和CNN提取的空間特征相結合進行推理的方法對于解決旋轉類的問題是有效的,該模型學習到了旋轉變換之間的邏輯關系。對于尺寸變換Re,TRN模型和ResNet模型、LSTM模型的準確度都達到了90%以上,比WReN模型更能學好尺寸變換的邏輯關系。對于翻轉變換Fi,TRN模型和WReN模型的準確度都達到了99%,而其他兩種模型的準確度只有20%左右,說明TRN模型學習到了翻轉變換之間的邏輯關系。對于數目變換Ad,除了ResNet模型的準確度為75%,其他模型的準確度都達到了99%,這說明TRN模型、WReN模型和LSTM模型都能很好地學習到數目變換的邏輯關系。總體而言,本文提出的TRN模型能更好地學習出圖像間單一變換的邏輯關系。
2)從組合變換的準確度來比較
本文提出的TRN模型在所有組合變換上的準確度最低是61.9%,而其他3種模型最低的準確度都是30%左右。并且TRN模型在大多數組合變換上的準確度都超過了其他3種模型,在所有11種組合變換上TRN模型在其中7種組合變換上都達到了最高的準確度,尤其是旋轉和翻轉的組合變換Ro_Fi,TRN模型的準確度達到了78%,遠高于其他3種模型的準確度。其他3種模型在組合變換上準確度低的原因可能是在單個變換上的準確度較低所導致的。另外,在4種變換組合時,TRN模型的精度是最高的,這說明提出的TRN模型在解決復雜變換推理任務時的魯棒性最強。總體而言,本文提出的TRN模型能更好地學習出圖像間組合變換的邏輯關系。
(2)同一個模型的不同變換之間準確度的比較
1)從單一變換的準確度來比較
從圖10所示的旋轉Ro、尺寸Re、翻轉Fi、數量Ad4種基本變換來看,旋轉變換準確度最低,尺寸和翻轉變換的準確度都較高,數量變換的準確度最高,基本達到了100%,這與人類做此類IQ測試題時的難易程度是一致的,旋轉變換更難被觀察出來。神經網絡在推理旋轉變換問題時,需要推斷出更多的參數,以定義旋轉矩陣,即中心點坐標和角度,這比尺寸、翻轉和數量變換更為復雜,如尺寸變換只需要推斷出尺寸因子這一個參數即可。
2)從組合變換的準確度來比較
翻轉和數量變換組合Fi_Ad的準確度最高,這是因為基礎變換中翻轉變換和數量變換的準確度是最高的,而旋轉和尺寸變換組合Ro_Re、旋轉和翻轉變換組合Ro_Fi以及尺寸和數量Re_Ad的準確度相對而言較低,這是因為旋轉變換本身的學習難度較大,導致其相關組合變換的準確度較低,而Re_Ad變換準確度較低的原因是這兩種變換組合在一起時由于圖案變小可能導致尺寸因子很難被推斷出來。對于3種及以上的變換組合而言,由于變換的組合復雜性,其準確度會比簡單的變換組合的準確度低一些。
從以上的實驗結果來看,本文提出的時序關系網絡TRN相比其他3種網絡模型,能夠有效提高模型在解決多選模式的IQ問題時的準確度。其次,在這些變換中,不同變換及其組合的準確度高低和人類在做此類IQ測試多選題的難易程度也是一致的。這說明本文模型學習到了圖像間的邏輯模式。
結束語本文的目的在于測量使用神經網絡來做基于圖像描述的IQ測試題類問題的能力,本文先是創建了基于此類問題的數據集———Fashion_IQ數據集,并且使用ResNet,LSTM,WReN模型以及提出的時序關系網絡TRN在此數據集上進行對比實驗。實驗結果驗證了TRN模型相比其他模型,可以提高在此IQ測試數據集上進行推理的準確度,并且該模型的確學習到了圖像間的邏輯模式。
在未來的工作中,可以嘗試把本文提出的模型應用到其他問題中,如可以應用到更為復雜的IQ測試問題模式中。另外,今后將探索如何提高模型的泛化能力,希望可以使模型在遇到不熟悉的屬性問題時仍能把先前推理出的邏輯模式更靈活地遷移到新問題中。
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >