[Women in TED] Fei Fei Li - 我們如何教導電腦瞭解影像

Fei Fei Li 的 TED Talk （圖片來源： TED Talk ）

二次大戰期間，於布萊切利莊園祕密從事破解德軍密碼的艾倫圖靈（Alan Turing），在戰後醉心於發展有限狀態自動機械的抽象數學模型。同時能將數學符號與繁瑣的計算驟在腦中呈現的他，反覆思索自動機械的潛能，多少白晝和深夜的冥想思索，他將思考的結晶發表成計算機制和智慧（Computing Machinery and Intelligence）一文，在文中更提出了著名的圖靈測試，作為判斷計算機械是否能擁有智慧的準繩。這個問題，對於當時，需要以將近一個空房來放置一臺電腦，經常要動員好幾十位程序員進行穿孔和裝換紙帶的工作，方能編寫數行程式碼。機械能夠思考，似乎難以想像。但是對於圖靈，以及他所執筆一系列關於自動有限狀態機械的理論論文，文中獨特的視野和無邊的想像，再以抽象數學表達和理性邏輯論述，對未來的智慧機械勾勒出了遠景和藍圖。甚而，為了避免全面定義智慧這樣複雜而又模糊的概念，他提議以一種”模仿遊戲”（imitating game）來回答”機械是否擁有智慧”這個大哉問。

在模仿遊戲中，在”人是有智慧”的前提下，圖靈提議讓人和機械進行一場比賽，比賽的參賽者皆不顯露自己的外表，好讓人類評審無法事先得知哪一位參賽者才是真正的機械。在比賽進行最後，若人類評審無法分辨出哪一位參賽者是機械，哪一位參賽者是人類，換句話說，機械已成功地模仿了”智慧”人類的行為，因此也可被歸為具有智慧。這在現今，個人電腦充斥，智慧型手機更是成為隨身配備的計算機器，人工智慧的發展由 IBM 發展的智能機器華生，參加危險邊緣（jeopardy）進而擊敗了人類對手，而逐漸形成一股熱潮。當時圖靈的問題，似乎就在不遠的將來得以實現。

機械是否能擁有和人類對等的智慧？感謝許多電腦科學家在圖靈之後，陸續對人工智慧這個領域投入心血研究，這個問題似乎愈來愈少人質疑。其中，於史坦佛大學人工智慧和電腦視覺實驗室主持人的 Fei Fei Li，在 TED “我們如何教導電腦瞭解影像”（How we’re teaching computers to understand pictures）的演講中，分享了她長年在電腦視覺領域中的研究成果。

首先，讓電腦進行影像辨識，本身就是一個困難的問題。影像辨識中最基本的問題：讓電腦辨識兩張圖片是否相同，直覺上對影像中每一像素值逐一比對就已足夠。然而，由於影像本身品質的差異，和旋轉，裁切和縮放等影像的後置處理，讓這個基本問題，不是只有逐一比對像素，而是必須囊括代表性足夠的非人為變異，以及人為處理的影像，作為供機械學習的訓練資料（Training data）後，再由人類設計的演算法（algorithm），佐以電腦的強大計算能力，在龐大的訓練資料構成的資料庫，進行分類或分群學習後，方能具備辨識相同影像的能力。這個過程，是從人類學習的過程中得到靈感，（其實大多數機械學習的演算法，多是從人類和生物界的構造與行為得到啓發），然而一直到近年來，電腦在自身硬體和網際網路設備的大幅進步，而使在巨型資料中搜尋和學習成為可能。

Fei Fei Li 以她的兒子 Leo 看到生日蛋糕的興奮之情，來藉以描述電腦如何理解這張照片。（圖片來源： Fei Fei Li TED Talk ）

瞭解了辨認兩張圖片是否相同的困難處，就更不難瞭解如何讓電腦識別影像中是否包含人臉這樣的概念，甚而延伸到”教會”電腦瞭解目前輸入的影像中包含什麼物體，並將這些獨立的概念，連接串聯出一句有意義的句子。如：”照片中有一個小男孩站在高椅上”，是多麼困難而艱鉅的任務。光是，人臉這樣的概念，就可以涵蓋不同膚色，髮色，表情和裝扮等等，電腦必須要先學習這許多變異，並將這些變異歸類於單一概念：”人臉”。進而，電腦還需要對影像進行分割，辨識不同的物體，如房子，雜草，樹木，天空等。就算能夠成功地辨識出影像中所有的物體，該如何捨棄不需要的物件，來組成有意義的句子，而不是有一個男孩站在天空中，這樣毫無道理的敘述，更需要電腦快速的運算能力，在如天文數字般語義和語法的組合中搜尋並進而得到最有可能的句子。就我們一般人類來說，這幾乎是輕而易舉的事，然而電腦就像是患有嚴重自閉症的患者，在電腦的世界中影像，只是由位元組構成的像素，而必須從這些千萬像素所構成的影像中，歸納成高階抽像概念，而不被過多且無用的雜訊淹沒，自然只能仰賴人類的長處，利用高階抽象的數學符號來進行演算法設計，讓患有嚴重自閉症的電腦們，真正看到，而且懂得。

早期電腦視覺研究者以幾何公式來描述影像內的物件，並將輪廓相似的物件歸類於同一物件，然而這樣的做法，卻無法處理同一概念下物件的變異性（圖片來源： Fei Fei Li TED Talk ）

Fei Fei Li 率領她的研究團隊，不僅包括了從事影像處理的電腦科學家，更包括了自然語言處理領域的科學家們，成功地教會電腦說出還在牙牙學語的學步兒能說出的句子。她的演講中，先以一連串童言童語的簡短句子來描述照片中的主題。早期電腦視覺的科學家們，利用數學幾何公式來描述欲辨識物體的輪廓，然而鑒於物體的變異，有無被遮蔽，以及光影等條件，讓這樣依賴純數學的描述的演算法難以推廣到不同場景下的同樣物件。為了突破這樣的困難，Fei Fei Li 從幼兒在成長的過程，透過觀看，模仿和犯錯，而終於能將字詞組合成有意義的句子得到靈感。她指出，幼兒學習過程，以人眼當作相機，每分每秒接受幾億萬張的影像來形成認知功能的訓練資料。同樣地，訓練電腦去看，去瞭解，也應該有巨大的資料庫，囊括物件所有的變異。於是，Fei Fei Li 和她的團隊，把研究重心從演算法的發展，轉移到蒐集大量的訓練資料，在將近五年，以群眾合力方法，在網路上下載了數億萬張圖片，建構出儲存將近十五億萬張影像的 ImageNet 資料庫。為了更符合目前開放資料的精神，以及回饋無數群眾的努力，Fei Fei Li 以及她的團隊將這份寶貴又耗時的巨量資料庫，免費開放給有興趣的研究者下載分析。

透過群眾合力建造出的影像資料庫，將以開放免費的方式，提供給研究者使用。（圖片來源： Fei Fei Li TED Talk ）

歷時五年終於建構出的巨型資料庫，也到今日在軟體和硬體上也進展到得以處理巨型資料的運算能力。Fei Fei Li 和她的團隊，應用機械學習中以人腦內的神經網路為設計原型的類神經網路演算法（Neural Network），來建構如黑盒子般的機械訓練架構。和人類的腦神經構造類似，黑盒子中有許多排列整齊的電子神經元，每一神經元由所謂的闕值，來決定神經元是否會被激發，並將神經訊息傳遞給下一個神經元。神經元之間則有著許多鏈結，每一鏈結則被賦予不同的權重，用來決定神經訊息是否能長途傳遞至高階的神經元中。在學習的過程中，類神經網路黑盒子，會用回饋路線，來加以調整鏈結的權重，使網路的架構更適於描述訓練資料。比起其他機械學習的演算法，類神經網路演算法更符合人類的思考方式，將受感覺細胞激發的訊息，轉換為抽象的概念，並將概念之間的關係以有意義的方式連結。若以數學的語言來說，黑盒子內部則是將複雜的函數以階層式的圖形模型來組成，每一階層裡都有相當簡單的基底函數，而每一由低階的網絡構成的高階網絡，其輸出則是由基底函數的非線性組合來藉以代表影像中的物件們在不同層次中所代表的抽象觀念。通常網路內的階層數愈高，愈能捕捉更高階的抽象概念，這也是近年來在機械學習領域，相當熱門的一個領域：”Deep Learning”

有了巨量的影像資料，在透過複雜的深層類神經網路訓練，電腦便能建構出意義和語法皆為正確的句子。（圖片來源： Fei Fei Li TED Talk ）

Fei Fei Li 和她的團隊，在巨量影像資料庫和龐大類神經網路在高運算能力的硬體協助下，已經能成功的辨認各式各樣的物件，讓人驚喜的是，她在演講中呈現的結果，電腦在進行物體辨識時，還允許一定程度的模糊，如同人類一樣對於無法確定的物體，會採取較為保守和廣闊的類別。但，能夠成功辨識物體，僅只是教會電腦去看的第一步，透過與自然語言處理技術的結合，電腦能說出簡短而正確的描述照片中的主題，正呼應著演講一開始，所播放幼兒描述照片主題的影片。然而，誠如 Fei Fei Li 在演講中，所展現的成果，雖然電腦已經可以組成語法簡單且語義正確的句子，卻仍然無法如人一般辨識情緒，和瞭解隱喻。

當，Fei Fei Li 展示這項成果時，在場的觀眾們熱烈的鼓掌，彷彿一起見證了人類登陸月球的跨世紀時刻，縱然電腦說出的句子單調呆板，缺乏人類的想像力和言語中的隱喻與情緒，然而就像阿姆斯壯踏入月球疆土的第一步，這一步引領太空科學家們進入太空時代，也讓許多年輕科學家們前仆後繼地追隨這第一步，勇敢地去挑戰更艱難的問題，進而夢想著建構一個更多彩多姿的未來。

目前電腦視覺和自然語言的發展，以能讓電腦以結構和意義正確的句子來描述影像，然而比起人類語言中的詩意，卻仍是相差甚遠。（圖片來源： Fei Fei Li TED Talk ）

我有幸在年輕的時候，接觸了所謂的機械學習在分子生物上的應用。當時，個人電腦也才剛進駐家庭，成為居家必備的電器之一。如今已經成為網路資訊搜尋的代名詞 google 也才剛蓬勃發展，並不像今日因為現代人對網際網路的過度依賴，而頻繁在虛擬世界中留下許多數位足印。然而，這些在短短數年內，便累積而成的龐大數位資料，可供任何感興趣的使用者下載分析，也引領科技業進入了所謂大數據時代。Fei Fei Li 以及她的團隊所達到的成果，無疑地是向已安眠許久的圖靈提出支持的證據：

是！我們能教會電腦如何去瞭解。

對於，戴著厚重厚重眼鏡，鎮日坐在電腦前，嘗試用程式語言與電腦溝通的我，對於此生或許有幸能看到電腦從無生命的電子零件，進而具備和人類旗鼓相當的思考能力，感到無比的欣喜和激動。彷彿幾千萬年人類演化的歷程，得以使用無生命的電腦重新模擬而呈現。電腦軟體同時具備能將複雜模型簡單化和簡單模型逐一複雜化的特性，讓許多無法在自然條件下從事的實驗，在資訊科學家和數學理論學者共同推導撰寫的模擬程式中，事先得到理論性的驗證。Fei Fei Li 的研究團隊利用巨型資料和與人腦相似的類神經網路進行視覺辨認訓練，並成功建構簡單語法，未來甚至計畫延展至語意的推論，這項研究，或許提供了另一個窗口，來協助自閉症或腦傷患者重拾正常人的生活。

在演講的最後，Fei Fei Li 以一個母親的心情，勾勒出她這份研究的遠景：有一天，毫不感到疲倦的機械將擁有和人類匹敵的智慧，會成為人類的夥伴，進而突破人類生理的界限，到達人類所無法觸及的疆土，以人類般好奇觀察的視野，替我們帶回寶貴的資料。至於史帝芬霍金所關心的魔鬼終結者般的問題，誠如人工智慧學者 Ray Kurzweil 在時代雜誌中所言，將人工智慧的可能威脅視為人性中必然的挑戰，將人工智慧可能的罪衍視為人類行使道德的標的，將人工智慧視為促進人類福祉的工具，而非令人敬畏的怪物。更或許，如果我們能教會電腦去看，去瞭解，或許我們也能教會電腦懂得閱讀人類的情緒，並且回應著慈愛和關心。

Fei Fei Li 在演講的最後，為我們勾勒了一個和人工智慧和諧相處，相輔相成的遠景。（圖片來源： Fei Fei Li TED Talk ）

參考資料及延伸閱讀:
IBM Watson’s First Jeopardy Show
Fei Fei Li 2015 TED Talk
Fei Fei Li’s Wiki
Ray Kurzweil on Times, Don’t Fear Artificial Intelligence

Menu