微軟亞洲研究院是跨界產(chǎn)學(xué)研結(jié)合的特殊性組織,在基礎(chǔ)研究方面,微軟讓人工智能在語音識(shí)別、圖像識(shí)別、機(jī)器翻譯和閱讀理解等方面的能力都實(shí)現(xiàn)了質(zhì)的提升。2017年我們成立了微軟亞洲研究院創(chuàng)新會(huì),希望通過微軟的智庫幫助亞太地區(qū)的所有傳統(tǒng)企業(yè)實(shí)現(xiàn)數(shù)字化和智能化轉(zhuǎn)型。
實(shí)際上人工智能基礎(chǔ)研究和產(chǎn)業(yè)需求之間是有著巨大鴻溝的,我們只有完成最后一公里創(chuàng)新,才能夠把這個(gè)鴻溝彌補(bǔ)起來。下面我要和大家展示四個(gè)方面的研究工作。
推薦閱讀:《新世紀(jì)智能》(旬刊)創(chuàng)刊于2018年,以馬列主義、毛澤東思想、鄧小平理論和“三個(gè)代表”重要思想為指導(dǎo),全面貫徹黨的教育方針和“雙百方針”。
第一個(gè)方面是對(duì)偶學(xué)習(xí)。對(duì)偶學(xué)習(xí)要解決的問題是什么?就是在沒有足夠數(shù)據(jù)、沒有標(biāo)識(shí)數(shù)據(jù)的情況下,人工智能還能不能完成學(xué)習(xí)過程,這是一個(gè)非常重要的問題,因?yàn)榻鼛啄陙?,無論是在語音識(shí)別、圖像識(shí)別、閱讀理解,還是在機(jī)器翻譯方面人工智能算法成功的背后必然是大量數(shù)據(jù)的支撐。任何人工智能應(yīng)用領(lǐng)域都要實(shí)現(xiàn)雙向交流,比如說在語音領(lǐng)域里,我們既關(guān)心從語音到文字識(shí)別的過程,也關(guān)心從語音到文字生成的過程,這樣才能形成一個(gè)閉環(huán)的人機(jī)交流。依據(jù)這樣的閉環(huán)模式,我們提出了一個(gè)對(duì)偶學(xué)習(xí)框架,利用信息交流的閉環(huán),即便沒有人工干預(yù),沒有人工標(biāo)識(shí)數(shù)據(jù),也可以獲得有效信息。
以機(jī)器翻譯為例,假設(shè)我們有兩個(gè)初始模型,可以完成從英文到中文的簡單翻譯,再將翻譯出來的中文轉(zhuǎn)譯成英文,形成閉環(huán)后就可以做兩個(gè)比較。第一個(gè)比較過程是將翻譯出的中文句子與正確的中文句式的比較,如果不相符的話就說明所使用的翻譯模型是無效的,或者有待提高。另一個(gè)比較過程是將原來的英文句子和經(jīng)過閉環(huán)翻譯出來的英文句子做的比較,判斷其語義是否一致,如果不一致就會(huì)獲得一個(gè)學(xué)習(xí)信號(hào),這是兩個(gè)對(duì)偶任務(wù)之間的雙向互動(dòng),是對(duì)偶學(xué)習(xí)的基本思想。
借助對(duì)偶學(xué)習(xí)技術(shù),2018年3月微軟公司在中英新聞翻譯領(lǐng)域首次達(dá)到人類專業(yè)翻譯水平,比同聲傳譯還高出一個(gè)水準(zhǔn)。我們?cè)?019年4月份世界級(jí)大規(guī)模機(jī)器翻譯大賽的19項(xiàng)任務(wù)里面獲得8項(xiàng)冠軍,背后主要的核心技術(shù)就是前面提到的對(duì)偶學(xué)習(xí)。
對(duì)偶學(xué)習(xí)不僅在機(jī)器翻譯上面有很好的表現(xiàn),在語音識(shí)別方面也發(fā)揮了很大的作用。語音質(zhì)量的提高,使合成的語音以一種可理解的方式傳遞到我們耳朵里,這就是對(duì)偶學(xué)習(xí)的效果。
第二個(gè)方面是動(dòng)態(tài)學(xué)習(xí)。對(duì)偶學(xué)習(xí)解決了數(shù)據(jù)不足的問題,但數(shù)據(jù)還有動(dòng)態(tài)性的問題。標(biāo)準(zhǔn)的人工智能會(huì)假設(shè)數(shù)據(jù)分布是不變的,所以我們?cè)谟?xùn)練集獲得的知識(shí)可以無縫推廣到將來未知的測試樣例上,但實(shí)際情況往往不是這樣。這個(gè)問題催生出了一系列算法,比如注意力機(jī)制算法,把原來傳統(tǒng)人工智能模型里面各種特征組合而成的確定性參數(shù)變成動(dòng)態(tài)的參數(shù),這些參數(shù)可以根據(jù)環(huán)境變化調(diào)整,這就是智能化的算法,區(qū)別于以前的固定算法。
同時(shí)我們還將基于數(shù)據(jù)的機(jī)器學(xué)習(xí)和博弈論相結(jié)合,傳統(tǒng)博弈論關(guān)心理性的智能體之間的博弈問題,忽略了數(shù)據(jù)里面的動(dòng)態(tài)性。而機(jī)器學(xué)習(xí)關(guān)心基于數(shù)據(jù)的決策,忽略了人或者智能體的二階效應(yīng)。我們把這兩者進(jìn)行結(jié)合,推出了一個(gè)新的研究方向—數(shù)據(jù)驅(qū)動(dòng)的博弈機(jī)器學(xué)習(xí)。博弈機(jī)器學(xué)習(xí)的一系列思想可以應(yīng)用到對(duì)數(shù)據(jù)動(dòng)態(tài)性非常敏感的領(lǐng)域,比如股票投資。
第三個(gè)方面是競合學(xué)習(xí)。我們的思想是化整為零,通過分布式訓(xùn)練解決問題。競合學(xué)習(xí)是建立在分布式的智能體之間的互動(dòng)機(jī)制。競合指的是分布式智能體之間對(duì)共有資源的競爭。我們和世界頂級(jí)的航運(yùn)公司進(jìn)行合作,用競合學(xué)習(xí)解決整個(gè)航運(yùn)網(wǎng)絡(luò)里集裝箱的調(diào)度問題,各個(gè)港口的集裝箱都需要競爭船上的空位,這是典型的智能體之間進(jìn)行資源競爭的例子,在同一條航線運(yùn)輸集裝箱的情況下,各個(gè)港口的集裝箱庫存在時(shí)空網(wǎng)絡(luò)上都要進(jìn)行廣泛競爭和合作。競合學(xué)習(xí)幫他們將原來基于運(yùn)籌學(xué)的方法,替代為新的人工智能解決方案,在短時(shí)間內(nèi)節(jié)省了上千萬美元的運(yùn)營成本。
第四個(gè)方面是輕量學(xué)習(xí)。最近在學(xué)術(shù)界很流行的一件事情是用大量數(shù)據(jù)做自然語言預(yù)訓(xùn)練,有了預(yù)訓(xùn)練模型的話,自然語言處理任務(wù)的執(zhí)行效果就可以得到提升。這聽起來像是在探索科學(xué)邊界,但是實(shí)際是一種大力出奇跡的做法,這讓我們的研究被極大地限制了。我跟我們研究團(tuán)隊(duì)達(dá)成的共識(shí)有兩點(diǎn):第一,不隨波逐流做所謂大力出奇跡研究。第二,希望幫助學(xué)術(shù)界和產(chǎn)業(yè)界探索輕量級(jí)的處理方法,用少量計(jì)算資源就可以實(shí)現(xiàn)比別人用海量計(jì)算資源效果更好的研究成果。
人工智能基礎(chǔ)研究非常重要,雖然近幾年取得了很大的進(jìn)展,但是想讓人工智能研究真正對(duì)產(chǎn)業(yè)產(chǎn)生影響,必須進(jìn)行最后一公里的研究,我們需要能彌補(bǔ)基礎(chǔ)研究和實(shí)際應(yīng)用鴻溝的重量級(jí)研究成果出現(xiàn)。
以上的四個(gè)研究方向希望能給大家?guī)韱l(fā),我們呼吁更多同仁一起去做進(jìn)一步的創(chuàng)新,推進(jìn)人工智能和大數(shù)據(jù)產(chǎn)業(yè)共同的繁榮發(fā)展,創(chuàng)建一個(gè)新的生態(tài)。
論文指導(dǎo) >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >