深度學習是近年來(lái)人(rén)工智能技(jì)術(shù)發展的核心,雖然取得(de)了巨大(dà)成功,但(dàn)它具有(yǒu)明(míng)顯的局限性。與人(rén)類視(shì)覺系統相比,深度學習在通(tōng)用性、靈活性和(hé)适應性上(shàng)要差很(hěn)多(duō),而在遇到複雜的自然圖像時(shí),深度學習可(kě)能還(hái)會(huì)遇到機制(zhì)性困難。
本文中,來(lái)自約翰霍普金斯大(dà)學的學者們向我們介紹了深度學習的幾大(dà)極限,以及如何解決這些(xiē)問題的思路。
研究人(rén)員表示,目前形式的深度神經網絡似乎不太可(kě)能是未來(lái)建立通(tōng)用智能機器(qì)或理(lǐ)解思維/人(rén)類大(dà)腦(nǎo)的最佳解決方案,但(dàn)深度學習的很(hěn)多(duō)機制(zhì)在未來(lái)仍會(huì)繼續存在。
我們現在正目睹的是人(rén)工智能的第三次崛起。前兩波發生(shēng)在 1950-1960 年代和(hé) 1980-1990 年代——當時(shí)都産生(shēng)了相當大(dà)的影(yǐng)響,卻也都慢慢冷卻下來(lái)。
這是因為(wèi)當時(shí)的神經網絡既沒有(yǒu)實現本該達成的性能提升,也沒有(yǒu)幫助我們理(lǐ)解生(shēng)物的視(shì)覺系統。第三次浪潮:21 世紀初——至今,此次與前兩次不同,深度學習在很(hěn)多(duō)基準測試和(hé)現實應用上(shàng)已經大(dà)幅超越了生(shēng)物的能力。
雖然深度學習的大(dà)多(duō)數(shù)基本思想在第二次浪潮中已經發展完善,但(dàn)其能力在大(dà)型數(shù)據集和(hé)計(jì)算(suàn)機算(suàn)力(特别是 GPU)發展完善之前是無法釋放的。
深度學習的沉浮反映了學派的流行(xíng),以及不同算(suàn)法的熱度。第二次浪潮讓我們在高(gāo)期待——低(dī)成果的發展中看到了經典 AI 的局限性,這就是在 20 世紀 80 年代中期出現 AI 寒冬的原因。
第二波浪潮的退卻轉化為(wèi)支持向量機、內(nèi)核方法以及相關方法的崛起。我們被神經網絡研究者的成果驚豔,盡管其效果令人(rén)失望,但(dàn)随着時(shí)間(jiān)的發展,它們又再次興起。
今天,我們很(hěn)難找到與神經網絡無關的研究了——這同樣也不是一個(gè)好的現象。我們不禁有(yǒu)些(xiē)懷疑:如果人(rén)工智能領域的學者們追求更多(duō)不同的方法,而不是跟從流行(xíng)趨勢,這個(gè)行(xíng)業或許會(huì)發展得(de)更快。
令人(rén)擔憂的是,人(rén)工智能專業的學生(shēng)們經常完全忽略舊(jiù)技(jì)術(shù),隻顧追逐新趨勢。
在 AlexNet 橫空(kōng)出世之前,計(jì)算(suàn)機視(shì)覺社區(qū)對于深度學習持懷疑态度。2011 年,AlexNet 在 ImageNet 圖像識别競賽中橫掃了所有(yǒu)競争對手,随後幾年,研究人(rén)員提出了越來(lái)越多(duō)性能更好的對象分類神經網絡架構。
同時(shí),深度學習也很(hěn)快适應了其他視(shì)覺任務,如目标檢測,其中圖像包含一個(gè)或多(duō)個(gè)物體(tǐ)。在這種任務中,神經網絡會(huì)對初始階段的信息進行(xíng)增強而确定最後的目标類别與位置,其中初始階段提出了對象的可(kě)能位置和(hé)大(dà)小(xiǎo)。
這些(xiē)方法在 ImageNet 前最為(wèi)重要的目标識别競賽——PASCAL 目标識别挑戰上(shàng)優于此前的最佳方式,即可(kě)變形部件模型(Deformable Part Model)。其他深度學習架構也在一些(xiē)經典任務上(shàng)有(yǒu)了很(hěn)大(dà)的提升,如下圖:
圖 1. 深度學習可(kě)以執行(xíng)很(hěn)多(duō)不同視(shì)覺任務。其中包括邊界檢測、語義分割、語義邊界、曲面法線、顯著度、人(rén)體(tǐ),以及目标檢測。
但(dàn)是,盡管深度學習超越了此前的一些(xiē)技(jì)術(shù),它們卻并不能用于通(tōng)用任務。在這裏,我們可(kě)以定義出三個(gè)主要限制(zhì)。
首先,深度學習幾乎總是需要大(dà)量标注數(shù)據。這使得(de)計(jì)算(suàn)機視(shì)覺的研究者們傾向于解決易于解決——而不是真正重要的問題。
有(yǒu)一些(xiē)方法可(kě)以減少(shǎo)監督的需求,包括遷移學習、few-shot 學習、無監督學習以及弱監督學習。但(dàn)到目前為(wèi)止,它們的成就并不如監督學習那(nà)樣令人(rén)印象深刻。
第二,深度學習在基準測試數(shù)據集上(shàng)表現良好,但(dàn)在數(shù)據集之外的真實世界圖像上(shàng)可(kě)能表現很(hěn)差。所有(yǒu)數(shù)據集都有(yǒu)自己的偏差。
這種偏差在早期視(shì)覺數(shù)據集中非常明(míng)顯,研究人(rén)員發現神經網絡會(huì)利用數(shù)據集的偏差「投機取巧」,比如利用背景進行(xíng)判斷(如在 Caltech101 中檢測魚曾經非常容易,因為(wèi)魚圖是唯一以水(shuǐ)為(wèi)背景的圖)。盡管通(tōng)過使用大(dà)數(shù)據集和(hé)深度神經網絡可(kě)以減少(shǎo)這一現象,但(dàn)問題仍然存在。
在下圖中,深度神經網絡在 ImageNet 上(shàng)訓練以識别沙發,但(dàn)卻可(kě)能因為(wèi)示例圖片數(shù)量不足而無法成功。深度神經網絡是偏向于反「特殊情況」的,模型不會(huì)太考慮數(shù)據集中出現較少(shǎo)的情況。
但(dàn)在現實世界的應用中,這些(xiē)偏差很(hěn)成問題,将這樣的系統用于視(shì)覺檢測有(yǒu)可(kě)能導緻嚴重後果。例如用于訓練自動駕駛汽車(chē)的數(shù)據集幾乎不會(huì)包含坐(zuò)在路中間(jiān)的嬰兒。
圖 2:UnrealCV 允許視(shì)覺研究人(rén)員簡單操縱合成場(chǎng)景,比如改變沙發的視(shì)角。我們發現 Faster-RCNN 檢測沙發的平均精度(AP)在 0.1 到 1.0 範圍內(nèi),顯示出對視(shì)角的極度敏感性。這可(kě)能是因為(wèi)訓練中的偏差導緻 Faster-RCNN 更傾向于特定的視(shì)角。
第三,深度網絡對圖像的改變過于敏感,而這些(xiē)改變在人(rén)類看來(lái)可(kě)能并不影(yǐng)響對圖的判斷。深度網絡不僅對标準對抗攻擊(會(huì)導緻難以察覺的圖像變化)敏感,而且對環境的變化也過于敏感。
圖 3 顯示了将吉他 PS 成雨林中的猴子的效果。這導緻深度網絡将猴子誤識為(wèi)人(rén)類而且将吉他視(shì)作(zuò)鳥,大(dà)概是因為(wèi)拿(ná)吉他的更有(yǒu)可(kě)能是人(rén)類而不是猴子,而出現在雨林裏猴子身邊的更有(yǒu)可(kě)能是鳥而不是吉他。
最近的研究給出了很(hěn)多(duō)關于深度網絡對環境過于敏感的案例,如将大(dà)象放進房(fáng)間(jiān)。
圖 3:添加遮擋緻使深度網絡失靈。左:用摩托車(chē)進行(xíng)遮擋後,深度網絡将猴子識别為(wèi)人(rén)類。中:用自行(xíng)車(chē)進行(xíng)遮擋後,深度網絡将猴子識别為(wèi)人(rén)類,而且叢林将網絡對車(chē)把的識别誤導為(wèi)鳥。右:用吉他進行(xíng)遮擋後,深度網絡将猴子識别為(wèi)人(rén)類,而且叢林将網絡對吉他的識别誤導為(wèi)鳥。
對背景的過度敏感可(kě)以歸咎于數(shù)據集有(yǒu)限的規模。對于任意的對象,數(shù)據集中隻能包含有(yǒu)限數(shù)量的背景,因此神經網絡存在偏好。
例如,在早期的圖像标注數(shù)據集中,我們觀察到長頸鹿隻會(huì)出現在樹(shù)的附近,因此生(shēng)成的标注沒有(yǒu)提及圖像中沒有(yǒu)樹(shù)的長頸鹿,盡管它們是最主要的對象。
對于深度網絡等數(shù)據驅動型方法來(lái)說,捕獲背景大(dà)量變化的難題以及探索大(dà)量噪聲因素的需要是一個(gè)很(hěn)大(dà)的問題。确保網絡可(kě)以解決所有(yǒu)這些(xiē)問題似乎需要無窮大(dà)的數(shù)據集,這又會(huì)給訓練和(hé)測試數(shù)據集帶來(lái)巨大(dà)的挑戰。
以上(shàng)所提到的所有(yǒu)問題都未必是深度學習的症結所在,但(dàn)它們是真正問題的早期信号。也就是說,現實世界中的圖像數(shù)據集組合起來(lái)非常大(dà),因此無論多(duō)大(dà)的數(shù)據集都無法表征現實世界的複雜性。
組合性大(dà)是什麽意思?想象一下通(tōng)過從目标字典中選擇目标并将它們放在不同的配置中來(lái)構建一個(gè)可(kě)視(shì)場(chǎng)景。實現這一任務的方法數(shù)量可(kě)以達到指數(shù)級。
即使是含有(yǒu)單個(gè)目标的圖像也能擁有(yǒu)類似的複雜性,因為(wèi)我們可(kě)以用無數(shù)種方法對其進行(xíng)遮擋。其背景也有(yǒu)無數(shù)種變化的可(kě)能。
盡管人(rén)類能夠自然地适應視(shì)覺環境中的種種變化,但(dàn)深度神經網絡更加敏感、易錯,如圖 3 所示。我們注意到,這種組合性爆炸在一些(xiē)視(shì)覺任務中可(kě)能不會(huì)出現,深度神經網絡在醫(yī)學圖像中的應用通(tōng)常非常成功,因為(wèi)其背景的變化相對較少(shǎo)(如胰腺和(hé)十二指腸總是離得(de)很(hěn)近)。
但(dàn)是對于許多(duō)應用來(lái)說,如果沒有(yǒu)一個(gè)指數(shù)級的大(dà)型數(shù)據集,我們就無法捕捉到現實世界的複雜性。
這一缺陷帶來(lái)了一些(xiē)重大(dà)問題,因為(wèi)在有(yǒu)限随機樣本上(shàng)進行(xíng)訓練、測試模型這一标準範式變得(de)不切實際。這些(xiē)樣本量永遠無法大(dà)到可(kě)以表征數(shù)據底層分布的程度。因此我們不得(de)不面對以下兩個(gè)新問題:
1. 在需要龐大(dà)數(shù)據集才能捕獲現實世界組合複雜性的任務中,如何在規模有(yǒu)限的數(shù)據集上(shàng)訓練算(suàn)法才能使其表現良好?
2. 如果隻能在有(yǒu)限子集上(shàng)測試,我們如何才能有(yǒu)效測試這些(xiē)算(suàn)法以确保它們在龐大(dà)數(shù)據集上(shàng)表現良好?
從現有(yǒu)形式來(lái)看,深度神經網絡等方法很(hěn)可(kě)能無法克服組合性爆炸這一難題。無論是訓練還(hái)是測試,數(shù)據集似乎永遠不夠大(dà)。以下是一些(xiē)潛在的解決方案。
組合性
組合性是一種基本原則,可(kě)以詩意地表述為(wèi)「一種信仰的體(tǐ)現,相信世界是可(kě)知的,人(rén)類可(kě)以拆解、理(lǐ)解并按照自己的意願重組事物」。此處的關鍵假設在于,結構是分層的,由更基本的子結構按照一組語法規則組合而成。這意味着,子結構和(hé)語法可(kě)以從有(yǒu)限的數(shù)據中習得(de),然後泛化到組合的場(chǎng)景中。
與深度網絡不同,組合性模型(compositional model)需要結構化的表征,這些(xiē)表征明(míng)确地表明(míng)其結構和(hé)子結構。組合性模型具備超越所見數(shù)據的推理(lǐ)能力,可(kě)以推理(lǐ)系統、進行(xíng)幹涉、實施診斷并基于相同的底層知識結構解決許多(duō)不同的問題。
Stuart Geman 曾說過,「世界是組合的,或者說上(shàng)帝是存在的,」否則上(shàng)帝就要手工焊接人(rén)類智能了。盡管深度神經網絡擁有(yǒu)某種形式的複雜性,如高(gāo)級特征由來(lái)自低(dī)級特征的響應組合而成,但(dàn)這并不是本文中提到的組合性。
圖 4:從(a)到(c),可(kě)變性遞增并使用了遮擋。(c)是一個(gè)龐大(dà)的組合數(shù)據集示例,本質上(shàng)和(hé)驗證碼相同。有(yǒu)趣的是,關于驗證碼的研究表明(míng),組合性模型的性能很(hěn)好,但(dàn)深度神經網絡的表現卻很(hěn)差。
圖 4 是關于組合性的一個(gè)示例,與合成分析有(yǒu)關。
組合性模型的若幹概念優勢已經體(tǐ)現在一些(xiē)視(shì)覺問題中,如使用相同的底層模型執行(xíng)多(duō)個(gè)任務和(hé)識别驗證碼。其它非視(shì)覺示例也表明(míng)了相同的論點。
嘗試訓練進行(xíng)智商測試的深度網絡沒有(yǒu)取得(de)成功。這一任務的目标是預測一個(gè) 3x3 網格中缺失的圖像,其它 8 個(gè)格子的圖像都已給出,任務中的底層規則是組合性的(幹擾可(kě)以存在)。
相反地,對于一些(xiē)自然語言應用,神經模塊網絡的動态架構似乎足夠靈活,可(kě)以捕捉到一些(xiē)有(yǒu)意義的組合,其性能優于傳統的深度學習網絡。
實際上(shàng),我們最近證實,經過聯合訓練後,各個(gè)模塊确實實現了它們預期的組合功能(如 AND、OR、FILTER(RED) 等)。
組合性模型有(yǒu)很(hěn)多(duō)理(lǐ)想的理(lǐ)論特性,如可(kě)解釋、可(kě)生(shēng)成樣本。這使得(de)錯誤更容易診斷,因此它們比深度網絡等黑(hēi)箱方法更難被欺騙。
但(dàn)學習組合性模型很(hěn)難,因為(wèi)它需要學習構件和(hé)語法(甚至語法的性質也是有(yǒu)争議的)。并且,為(wèi)了通(tōng)過合成進行(xíng)分析,它們需要擁有(yǒu)目标和(hé)場(chǎng)景結構的生(shēng)成模型。
除了一些(xiē)例外,如臉、字母和(hé)規則紋理(lǐ)圖像,将分布放在圖像上(shàng)很(hěn)難。
更重要的是,處理(lǐ)組合性爆炸需要學習 3D 世界的因果模型以及這些(xiē)模型如何生(shēng)成圖像。對人(rén)類嬰兒的研究表明(míng),他們通(tōng)過建立預測所處環境結構的因果模型來(lái)學習。
這種因果理(lǐ)解使他們能夠從有(yǒu)限的數(shù)據中學習并泛化到新環境中。這類似于将牛頓定律和(hé)太陽系的托勒密模型進行(xíng)對比,牛頓定律以最少(shǎo)的自由參數(shù)給出了因果理(lǐ)解,而托勒密模型給出了非常準确的預測,但(dàn)需要大(dà)量的數(shù)據來(lái)确定其細節。
在現實世界的組合複雜度上(shàng)測試視(shì)覺算(suàn)法的一個(gè)潛在挑戰是,我們隻能在有(yǒu)限的數(shù)據上(shàng)進行(xíng)測試。博弈論通(tōng)過關注最壞的案例而不是一般的案例來(lái)解決這個(gè)問題。
正如我們之前所說的,如果數(shù)據集沒有(yǒu)捕捉到問題的組合複雜度,那(nà)麽一般案例在有(yǒu)限大(dà)小(xiǎo)數(shù)據集上(shàng)的結果可(kě)能沒有(yǒu)意義。
很(hěn)明(míng)顯,如果目标是開(kāi)發用于自動駕駛汽車(chē)或醫(yī)學圖像中診斷癌症的視(shì)覺算(suàn)法,那(nà)将注意力放在最壞的案例上(shàng)是有(yǒu)意義的,因為(wèi)算(suàn)法的失敗會(huì)導緻嚴重的後果。
如果能夠在低(dī)維空(kōng)間(jiān)中捕捉故障模式,如立體(tǐ)的危險因素,我們就可(kě)以用計(jì)算(suàn)機圖形和(hé)網格搜索來(lái)研究它們。但(dàn)對于大(dà)多(duō)數(shù)視(shì)覺任務,尤其是涉及組合數(shù)據的任務來(lái)說,很(hěn)難識别出少(shǎo)數(shù)可(kě)以被隔離或測試的危險因素。
一個(gè)策略是将标準對抗攻擊的概念擴展到包含非局部結構,這可(kě)以通(tōng)過允許導緻圖像或場(chǎng)景改變但(dàn)不會(huì)顯著影(yǐng)響人(rén)類感知的複雜操作(zuò)(如遮擋或改變被觀察物體(tǐ)的物理(lǐ)屬性)來(lái)實現。
将這一策略應用于處理(lǐ)組合數(shù)據的視(shì)覺算(suàn)法仍然頗具挑戰性。但(dàn),如果在設計(jì)算(suàn)法時(shí)考慮到了組合性,那(nà)它們的顯式結構可(kě)能使得(de)診斷并确定它們的故障模式成為(wèi)可(kě)能。
幾年前,Aude Oliva 和(hé) Alan Yuille(一作(zuò))共同組織了一場(chǎng)由美國國家(jiā)科學基金會(huì)資助的計(jì)算(suàn)機視(shì)覺前沿研討(tǎo)會(huì)(MIT CSAIL 2011)。會(huì)議鼓勵大(dà)家(jiā)坦誠交換意見。
與會(huì)人(rén)員對于深度網絡在計(jì)算(suàn)機視(shì)覺方面的潛力存在巨大(dà)分歧。Yann LeCun 大(dà)膽預測,所有(yǒu)人(rén)都将很(hěn)快使用深度網絡。他的預測是對的。
深度網絡的成功令人(rén)矚目,還(hái)使計(jì)算(suàn)機視(shì)覺變得(de)非常熱門(mén),大(dà)大(dà)增加了學界和(hé)業界的互動,促使計(jì)算(suàn)機視(shì)覺被應用于很(hěn)多(duō)領域并帶來(lái)很(hěn)多(duō)其它重要的研究成果。
即便如此,深度網絡還(hái)存在巨大(dà)挑戰,而我們要實現通(tōng)用人(rén)工智能和(hé)理(lǐ)解生(shēng)物視(shì)覺系統,就必須克服這些(xiē)挑戰。我們的一些(xiē)擔憂與最近對深度網絡的批評中提到的類似。
随着研究人(rén)員開(kāi)始在越來(lái)越現實的條件下處理(lǐ)越來(lái)越複雜的視(shì)覺任務,可(kě)以說最嚴峻的挑戰是如何開(kāi)發能夠處理(lǐ)組合性爆炸的算(suàn)法。
雖然深度網絡會(huì)是解決方案的一部分,但(dàn)我們認為(wèi)還(hái)需要涉及組合原則和(hé)因果模型的互補方法,以捕捉數(shù)據的基本結構。此外,面對組合性爆炸,我們要再次思考如何訓練和(hé)評估視(shì)覺算(suàn)法。