深度學習計(jì)算(suàn)機視(shì)覺極限将至，我們該如何找到突破口？

新聞中心

NEWS CENTER

發布時(shí)間(jiān)：2019 - 02 - 12 浏覽次數(shù)：1303

深度學習是近年來(lái)人(rén)工智能技(jì)術(shù)發展的核心，雖然取得(de)了巨大(dà)成功，但(dàn)它具有(yǒu)明(míng)顯的局限性。與人(rén)類視(shì)覺系統相比，深度學習在通(tōng)用性、靈活性和(hé)适應性上(shàng)要差很(hěn)多(duō)，而在遇到複雜的自然圖像時(shí)，深度學習可(kě)能還(hái)會(huì)遇到機制(zhì)性困難。

本文中，來(lái)自約翰霍普金斯大(dà)學的學者們向我們介紹了深度學習的幾大(dà)極限，以及如何解決這些(xiē)問題的思路。

研究人(rén)員表示，目前形式的深度神經網絡似乎不太可(kě)能是未來(lái)建立通(tōng)用智能機器(qì)或理(lǐ)解思維/人(rén)類大(dà)腦(nǎo)的最佳解決方案，但(dàn)深度學習的很(hěn)多(duō)機制(zhì)在未來(lái)仍會(huì)繼續存在。

深度學習的曆史

我們現在正目睹的是人(rén)工智能的第三次崛起。前兩波發生(shēng)在 1950-1960 年代和(hé) 1980-1990 年代——當時(shí)都産生(shēng)了相當大(dà)的影(yǐng)響，卻也都慢慢冷卻下來(lái)。

這是因為(wèi)當時(shí)的神經網絡既沒有(yǒu)實現本該達成的性能提升，也沒有(yǒu)幫助我們理(lǐ)解生(shēng)物的視(shì)覺系統。第三次浪潮：21 世紀初——至今，此次與前兩次不同，深度學習在很(hěn)多(duō)基準測試和(hé)現實應用上(shàng)已經大(dà)幅超越了生(shēng)物的能力。

雖然深度學習的大(dà)多(duō)數(shù)基本思想在第二次浪潮中已經發展完善，但(dàn)其能力在大(dà)型數(shù)據集和(hé)計(jì)算(suàn)機算(suàn)力（特别是 GPU）發展完善之前是無法釋放的。

深度學習的沉浮反映了學派的流行(xíng)，以及不同算(suàn)法的熱度。第二次浪潮讓我們在高(gāo)期待——低(dī)成果的發展中看到了經典 AI 的局限性，這就是在 20 世紀 80 年代中期出現 AI 寒冬的原因。

第二波浪潮的退卻轉化為(wèi)支持向量機、內(nèi)核方法以及相關方法的崛起。我們被神經網絡研究者的成果驚豔，盡管其效果令人(rén)失望，但(dàn)随着時(shí)間(jiān)的發展，它們又再次興起。

今天，我們很(hěn)難找到與神經網絡無關的研究了——這同樣也不是一個(gè)好的現象。我們不禁有(yǒu)些(xiē)懷疑：如果人(rén)工智能領域的學者們追求更多(duō)不同的方法，而不是跟從流行(xíng)趨勢，這個(gè)行(xíng)業或許會(huì)發展得(de)更快。

令人(rén)擔憂的是，人(rén)工智能專業的學生(shēng)們經常完全忽略舊(jiù)技(jì)術(shù)，隻顧追逐新趨勢。

成功與失敗

在 AlexNet 橫空(kōng)出世之前，計(jì)算(suàn)機視(shì)覺社區(qū)對于深度學習持懷疑态度。2011 年，AlexNet 在 ImageNet 圖像識别競賽中橫掃了所有(yǒu)競争對手，随後幾年，研究人(rén)員提出了越來(lái)越多(duō)性能更好的對象分類神經網絡架構。

同時(shí)，深度學習也很(hěn)快适應了其他視(shì)覺任務，如目标檢測，其中圖像包含一個(gè)或多(duō)個(gè)物體(tǐ)。在這種任務中，神經網絡會(huì)對初始階段的信息進行(xíng)增強而确定最後的目标類别與位置，其中初始階段提出了對象的可(kě)能位置和(hé)大(dà)小(xiǎo)。

這些(xiē)方法在 ImageNet 前最為(wèi)重要的目标識别競賽——PASCAL 目标識别挑戰上(shàng)優于此前的最佳方式，即可(kě)變形部件模型（Deformable Part Model）。其他深度學習架構也在一些(xiē)經典任務上(shàng)有(yǒu)了很(hěn)大(dà)的提升，如下圖：

深度學習計(jì)算(suàn)機視(shì)覺極限将至，我們該如何找到突破口？

圖 1. 深度學習可(kě)以執行(xíng)很(hěn)多(duō)不同視(shì)覺任務。其中包括邊界檢測、語義分割、語義邊界、曲面法線、顯著度、人(rén)體(tǐ)，以及目标檢測。

但(dàn)是，盡管深度學習超越了此前的一些(xiē)技(jì)術(shù)，它們卻并不能用于通(tōng)用任務。在這裏，我們可(kě)以定義出三個(gè)主要限制(zhì)。

首先，深度學習幾乎總是需要大(dà)量标注數(shù)據。這使得(de)計(jì)算(suàn)機視(shì)覺的研究者們傾向于解決易于解決——而不是真正重要的問題。

有(yǒu)一些(xiē)方法可(kě)以減少(shǎo)監督的需求，包括遷移學習、few-shot 學習、無監督學習以及弱監督學習。但(dàn)到目前為(wèi)止，它們的成就并不如監督學習那(nà)樣令人(rén)印象深刻。

第二，深度學習在基準測試數(shù)據集上(shàng)表現良好，但(dàn)在數(shù)據集之外的真實世界圖像上(shàng)可(kě)能表現很(hěn)差。所有(yǒu)數(shù)據集都有(yǒu)自己的偏差。

這種偏差在早期視(shì)覺數(shù)據集中非常明(míng)顯，研究人(rén)員發現神經網絡會(huì)利用數(shù)據集的偏差「投機取巧」，比如利用背景進行(xíng)判斷（如在 Caltech101 中檢測魚曾經非常容易，因為(wèi)魚圖是唯一以水(shuǐ)為(wèi)背景的圖）。盡管通(tōng)過使用大(dà)數(shù)據集和(hé)深度神經網絡可(kě)以減少(shǎo)這一現象，但(dàn)問題仍然存在。

在下圖中，深度神經網絡在 ImageNet 上(shàng)訓練以識别沙發，但(dàn)卻可(kě)能因為(wèi)示例圖片數(shù)量不足而無法成功。深度神經網絡是偏向于反「特殊情況」的，模型不會(huì)太考慮數(shù)據集中出現較少(shǎo)的情況。

但(dàn)在現實世界的應用中，這些(xiē)偏差很(hěn)成問題，将這樣的系統用于視(shì)覺檢測有(yǒu)可(kě)能導緻嚴重後果。例如用于訓練自動駕駛汽車(chē)的數(shù)據集幾乎不會(huì)包含坐(zuò)在路中間(jiān)的嬰兒。

深度學習計(jì)算(suàn)機視(shì)覺極限将至，我們該如何找到突破口？

圖 2：UnrealCV 允許視(shì)覺研究人(rén)員簡單操縱合成場(chǎng)景，比如改變沙發的視(shì)角。我們發現 Faster-RCNN 檢測沙發的平均精度（AP）在 0.1 到 1.0 範圍內(nèi)，顯示出對視(shì)角的極度敏感性。這可(kě)能是因為(wèi)訓練中的偏差導緻 Faster-RCNN 更傾向于特定的視(shì)角。

第三，深度網絡對圖像的改變過于敏感，而這些(xiē)改變在人(rén)類看來(lái)可(kě)能并不影(yǐng)響對圖的判斷。深度網絡不僅對标準對抗攻擊（會(huì)導緻難以察覺的圖像變化）敏感，而且對環境的變化也過于敏感。

圖 3 顯示了将吉他 PS 成雨林中的猴子的效果。這導緻深度網絡将猴子誤識為(wèi)人(rén)類而且将吉他視(shì)作(zuò)鳥，大(dà)概是因為(wèi)拿(ná)吉他的更有(yǒu)可(kě)能是人(rén)類而不是猴子，而出現在雨林裏猴子身邊的更有(yǒu)可(kě)能是鳥而不是吉他。

最近的研究給出了很(hěn)多(duō)關于深度網絡對環境過于敏感的案例，如将大(dà)象放進房(fáng)間(jiān)。

深度學習計(jì)算(suàn)機視(shì)覺極限将至，我們該如何找到突破口？

圖 3：添加遮擋緻使深度網絡失靈。左：用摩托車(chē)進行(xíng)遮擋後，深度網絡将猴子識别為(wèi)人(rén)類。中：用自行(xíng)車(chē)進行(xíng)遮擋後，深度網絡将猴子識别為(wèi)人(rén)類，而且叢林将網絡對車(chē)把的識别誤導為(wèi)鳥。右：用吉他進行(xíng)遮擋後，深度網絡将猴子識别為(wèi)人(rén)類，而且叢林将網絡對吉他的識别誤導為(wèi)鳥。

對背景的過度敏感可(kě)以歸咎于數(shù)據集有(yǒu)限的規模。對于任意的對象，數(shù)據集中隻能包含有(yǒu)限數(shù)量的背景，因此神經網絡存在偏好。

例如，在早期的圖像标注數(shù)據集中，我們觀察到長頸鹿隻會(huì)出現在樹(shù)的附近，因此生(shēng)成的标注沒有(yǒu)提及圖像中沒有(yǒu)樹(shù)的長頸鹿，盡管它們是最主要的對象。

對于深度網絡等數(shù)據驅動型方法來(lái)說，捕獲背景大(dà)量變化的難題以及探索大(dà)量噪聲因素的需要是一個(gè)很(hěn)大(dà)的問題。确保網絡可(kě)以解決所有(yǒu)這些(xiē)問題似乎需要無窮大(dà)的數(shù)據集，這又會(huì)給訓練和(hé)測試數(shù)據集帶來(lái)巨大(dà)的挑戰。

「大(dà)型數(shù)據集」還(hái)不夠大(dà)

組合性爆炸

以上(shàng)所提到的所有(yǒu)問題都未必是深度學習的症結所在，但(dàn)它們是真正問題的早期信号。也就是說，現實世界中的圖像數(shù)據集組合起來(lái)非常大(dà)，因此無論多(duō)大(dà)的數(shù)據集都無法表征現實世界的複雜性。

組合性大(dà)是什麽意思？想象一下通(tōng)過從目标字典中選擇目标并将它們放在不同的配置中來(lái)構建一個(gè)可(kě)視(shì)場(chǎng)景。實現這一任務的方法數(shù)量可(kě)以達到指數(shù)級。

即使是含有(yǒu)單個(gè)目标的圖像也能擁有(yǒu)類似的複雜性，因為(wèi)我們可(kě)以用無數(shù)種方法對其進行(xíng)遮擋。其背景也有(yǒu)無數(shù)種變化的可(kě)能。

盡管人(rén)類能夠自然地适應視(shì)覺環境中的種種變化，但(dàn)深度神經網絡更加敏感、易錯，如圖 3 所示。我們注意到，這種組合性爆炸在一些(xiē)視(shì)覺任務中可(kě)能不會(huì)出現，深度神經網絡在醫(yī)學圖像中的應用通(tōng)常非常成功，因為(wèi)其背景的變化相對較少(shǎo)（如胰腺和(hé)十二指腸總是離得(de)很(hěn)近）。

但(dàn)是對于許多(duō)應用來(lái)說，如果沒有(yǒu)一個(gè)指數(shù)級的大(dà)型數(shù)據集，我們就無法捕捉到現實世界的複雜性。

這一缺陷帶來(lái)了一些(xiē)重大(dà)問題，因為(wèi)在有(yǒu)限随機樣本上(shàng)進行(xíng)訓練、測試模型這一标準範式變得(de)不切實際。這些(xiē)樣本量永遠無法大(dà)到可(kě)以表征數(shù)據底層分布的程度。因此我們不得(de)不面對以下兩個(gè)新問題：

1. 在需要龐大(dà)數(shù)據集才能捕獲現實世界組合複雜性的任務中，如何在規模有(yǒu)限的數(shù)據集上(shàng)訓練算(suàn)法才能使其表現良好？

2. 如果隻能在有(yǒu)限子集上(shàng)測試，我們如何才能有(yǒu)效測試這些(xiē)算(suàn)法以确保它們在龐大(dà)數(shù)據集上(shàng)表現良好？

克服組合性爆炸

從現有(yǒu)形式來(lái)看，深度神經網絡等方法很(hěn)可(kě)能無法克服組合性爆炸這一難題。無論是訓練還(hái)是測試，數(shù)據集似乎永遠不夠大(dà)。以下是一些(xiē)潛在的解決方案。

組合性

組合性是一種基本原則，可(kě)以詩意地表述為(wèi)「一種信仰的體(tǐ)現，相信世界是可(kě)知的，人(rén)類可(kě)以拆解、理(lǐ)解并按照自己的意願重組事物」。此處的關鍵假設在于，結構是分層的，由更基本的子結構按照一組語法規則組合而成。這意味着，子結構和(hé)語法可(kě)以從有(yǒu)限的數(shù)據中習得(de)，然後泛化到組合的場(chǎng)景中。

與深度網絡不同，組合性模型（compositional model）需要結構化的表征，這些(xiē)表征明(míng)确地表明(míng)其結構和(hé)子結構。組合性模型具備超越所見數(shù)據的推理(lǐ)能力，可(kě)以推理(lǐ)系統、進行(xíng)幹涉、實施診斷并基于相同的底層知識結構解決許多(duō)不同的問題。

Stuart Geman 曾說過，「世界是組合的，或者說上(shàng)帝是存在的，」否則上(shàng)帝就要手工焊接人(rén)類智能了。盡管深度神經網絡擁有(yǒu)某種形式的複雜性，如高(gāo)級特征由來(lái)自低(dī)級特征的響應組合而成，但(dàn)這并不是本文中提到的組合性。

深度學習計(jì)算(suàn)機視(shì)覺極限将至，我們該如何找到突破口？

圖 4：從（a）到（c），可(kě)變性遞增并使用了遮擋。（c）是一個(gè)龐大(dà)的組合數(shù)據集示例，本質上(shàng)和(hé)驗證碼相同。有(yǒu)趣的是，關于驗證碼的研究表明(míng)，組合性模型的性能很(hěn)好，但(dàn)深度神經網絡的表現卻很(hěn)差。

圖 4 是關于組合性的一個(gè)示例，與合成分析有(yǒu)關。

組合性模型的若幹概念優勢已經體(tǐ)現在一些(xiē)視(shì)覺問題中，如使用相同的底層模型執行(xíng)多(duō)個(gè)任務和(hé)識别驗證碼。其它非視(shì)覺示例也表明(míng)了相同的論點。

嘗試訓練進行(xíng)智商測試的深度網絡沒有(yǒu)取得(de)成功。這一任務的目标是預測一個(gè) 3x3 網格中缺失的圖像，其它 8 個(gè)格子的圖像都已給出，任務中的底層規則是組合性的（幹擾可(kě)以存在）。

相反地，對于一些(xiē)自然語言應用，神經模塊網絡的動态架構似乎足夠靈活，可(kě)以捕捉到一些(xiē)有(yǒu)意義的組合，其性能優于傳統的深度學習網絡。

實際上(shàng)，我們最近證實，經過聯合訓練後，各個(gè)模塊确實實現了它們預期的組合功能（如 AND、OR、FILTER(RED) 等）。

組合性模型有(yǒu)很(hěn)多(duō)理(lǐ)想的理(lǐ)論特性，如可(kě)解釋、可(kě)生(shēng)成樣本。這使得(de)錯誤更容易診斷，因此它們比深度網絡等黑(hēi)箱方法更難被欺騙。

但(dàn)學習組合性模型很(hěn)難，因為(wèi)它需要學習構件和(hé)語法（甚至語法的性質也是有(yǒu)争議的）。并且，為(wèi)了通(tōng)過合成進行(xíng)分析，它們需要擁有(yǒu)目标和(hé)場(chǎng)景結構的生(shēng)成模型。

除了一些(xiē)例外，如臉、字母和(hé)規則紋理(lǐ)圖像，将分布放在圖像上(shàng)很(hěn)難。

更重要的是，處理(lǐ)組合性爆炸需要學習 3D 世界的因果模型以及這些(xiē)模型如何生(shēng)成圖像。對人(rén)類嬰兒的研究表明(míng)，他們通(tōng)過建立預測所處環境結構的因果模型來(lái)學習。

這種因果理(lǐ)解使他們能夠從有(yǒu)限的數(shù)據中學習并泛化到新環境中。這類似于将牛頓定律和(hé)太陽系的托勒密模型進行(xíng)對比，牛頓定律以最少(shǎo)的自由參數(shù)給出了因果理(lǐ)解，而托勒密模型給出了非常準确的預測，但(dàn)需要大(dà)量的數(shù)據來(lái)确定其細節。

在組合數(shù)據上(shàng)測試

在現實世界的組合複雜度上(shàng)測試視(shì)覺算(suàn)法的一個(gè)潛在挑戰是，我們隻能在有(yǒu)限的數(shù)據上(shàng)進行(xíng)測試。博弈論通(tōng)過關注最壞的案例而不是一般的案例來(lái)解決這個(gè)問題。

正如我們之前所說的，如果數(shù)據集沒有(yǒu)捕捉到問題的組合複雜度，那(nà)麽一般案例在有(yǒu)限大(dà)小(xiǎo)數(shù)據集上(shàng)的結果可(kě)能沒有(yǒu)意義。

很(hěn)明(míng)顯，如果目标是開(kāi)發用于自動駕駛汽車(chē)或醫(yī)學圖像中診斷癌症的視(shì)覺算(suàn)法，那(nà)将注意力放在最壞的案例上(shàng)是有(yǒu)意義的，因為(wèi)算(suàn)法的失敗會(huì)導緻嚴重的後果。

如果能夠在低(dī)維空(kōng)間(jiān)中捕捉故障模式，如立體(tǐ)的危險因素，我們就可(kě)以用計(jì)算(suàn)機圖形和(hé)網格搜索來(lái)研究它們。但(dàn)對于大(dà)多(duō)數(shù)視(shì)覺任務，尤其是涉及組合數(shù)據的任務來(lái)說，很(hěn)難識别出少(shǎo)數(shù)可(kě)以被隔離或測試的危險因素。

一個(gè)策略是将标準對抗攻擊的概念擴展到包含非局部結構，這可(kě)以通(tōng)過允許導緻圖像或場(chǎng)景改變但(dàn)不會(huì)顯著影(yǐng)響人(rén)類感知的複雜操作(zuò)（如遮擋或改變被觀察物體(tǐ)的物理(lǐ)屬性）來(lái)實現。

将這一策略應用于處理(lǐ)組合數(shù)據的視(shì)覺算(suàn)法仍然頗具挑戰性。但(dàn)，如果在設計(jì)算(suàn)法時(shí)考慮到了組合性，那(nà)它們的顯式結構可(kě)能使得(de)診斷并确定它們的故障模式成為(wèi)可(kě)能。

小(xiǎo)結

幾年前，Aude Oliva 和(hé) Alan Yuille（一作(zuò)）共同組織了一場(chǎng)由美國國家(jiā)科學基金會(huì)資助的計(jì)算(suàn)機視(shì)覺前沿研討(tǎo)會(huì)（MIT CSAIL 2011）。會(huì)議鼓勵大(dà)家(jiā)坦誠交換意見。

與會(huì)人(rén)員對于深度網絡在計(jì)算(suàn)機視(shì)覺方面的潛力存在巨大(dà)分歧。Yann LeCun 大(dà)膽預測，所有(yǒu)人(rén)都将很(hěn)快使用深度網絡。他的預測是對的。

深度網絡的成功令人(rén)矚目，還(hái)使計(jì)算(suàn)機視(shì)覺變得(de)非常熱門(mén)，大(dà)大(dà)增加了學界和(hé)業界的互動，促使計(jì)算(suàn)機視(shì)覺被應用于很(hěn)多(duō)領域并帶來(lái)很(hěn)多(duō)其它重要的研究成果。

即便如此，深度網絡還(hái)存在巨大(dà)挑戰，而我們要實現通(tōng)用人(rén)工智能和(hé)理(lǐ)解生(shēng)物視(shì)覺系統，就必須克服這些(xiē)挑戰。我們的一些(xiē)擔憂與最近對深度網絡的批評中提到的類似。

随着研究人(rén)員開(kāi)始在越來(lái)越現實的條件下處理(lǐ)越來(lái)越複雜的視(shì)覺任務，可(kě)以說最嚴峻的挑戰是如何開(kāi)發能夠處理(lǐ)組合性爆炸的算(suàn)法。

雖然深度網絡會(huì)是解決方案的一部分，但(dàn)我們認為(wèi)還(hái)需要涉及組合原則和(hé)因果模型的互補方法，以捕捉數(shù)據的基本結構。此外，面對組合性爆炸，我們要再次思考如何訓練和(hé)評估視(shì)覺算(suàn)法。

上(shàng)一條內(nèi)容