圖片說明:美國麻省理工學院(Massachusetts Institute of Technology,MIT)的神經系統科學家發現,一些計算機程序可以像靈長類動物大腦一樣識別上圖中的物體。圖片來源:phys.org
數十年來,神經系統科學家一直在嘗試通過設計計算機網絡來模仿人的視覺能力,比如人腦可以非常准確和快速地識別物體。
直到現在,在物體識別能力方面,仍然沒有計算機模型能夠與靈長類動物的大腦相媲美,靈長類動物僅需一瞥即可識別。然而,日前,MIT神經系統科學家們的一項新的發現表明,他們最新一代號稱「deep neural networks」(深層神經網絡)的程序能夠與靈長類動物的大腦媲美。
James DiCarlo是一名神經科學教授,並擔任MIT大腦與認知科學系主任,同時,他還是這篇於2014年12月11號發表於PLoS Computational Biology上的研究的資深作者。他說,因為此程序是基於神經系統科學家們目前對大腦如何識別物體的理解而建立的,所以這項最新的程序對物體的成功識別也表明了研究人員對人們識別物體過程的理解也是准確的。
Dicarlo說:「此模型可以預測神經反應以及物體在神經元群空間中的距離,這表明這些模型可以描述我們當前對原來神秘難解的那部分大腦的最佳理解。」
MIT McGovern Institute for Brain Research的博士後、本文的第一作者Charles Cadieu說:「這項對於靈長類動物大腦如何工作的研究有助於我們更好地了解人工智能,在將來某一天,我們可以找到修復視覺功能障礙的新方法。」
來源於大腦的靈感
科學家從20世紀70年代開始搭建神經網絡,目的在於模仿人類大腦的視覺信息處理、語音識別和語言理解等能力。
對於基於視覺的神經網絡,科學家在研究過程中受到了大腦內視覺信息分層表述的啟發。隨著視覺輸入流從視網膜傳輸到初級視皮層,再到下顳葉(inferotemporal,IT)皮質,在識別物體前,每層都會進行處理,從而准確地識別物體。
為了模擬這一過程,神經網絡的設計者們在模型中設計了幾層計算。每層執行一種數學運算,比如線性點積等。在每一層,對物體的視覺表述將變得越來越復雜,而像物體的位置或移動等一些不需要的信息將被舍棄。
Cadieu說:「每個獨立單元都是一項典型而簡單的數學表達式。但我們將這些成千上萬的單元聯合在一起後,就會得到從原始信號到物體識別的復雜轉換。」
在本研究中,研究人員首次測量了大腦對物體的識別能力。此研究由Hong和Majaj主導,他們在下顳葉和V4區域分別植入了電極陣列,V4區域是注入下顳葉皮質視覺系統的一部分。這使得我們可以觀測神經表述,即當動物看到物體時,有多少神經元參與反應。
研究人員將這個測量結果與深層神經網絡的表述結果相比較,深層神經網絡的表述由系統中不同計算單元得到的數字矩陣構成。每個圖像產生不同的數字陣列。模型的准確性取決於表述中相似的物體是否劃分到類似的群組中。
Cadieu說:「通過每一個計算轉換和每一層神經網絡,一些物體和圖像靠得越來越近,而其他一些變得越來越遠。」
其中最好的網絡是由美國紐約大學(New York University)的研究人員設計的,它可以像獼猴大腦一樣對物體進行分類。
處理能力提升
Cadieu說,此項神經網絡的成功主要有兩個原因。一是因為計算機處理能力的大幅提高,研究人員一直在使用圖像處理器(GPU),這是一種用於處理電子游戲中海量視覺信息的高性能小型芯片。他說:「這樣,我們就可以通過購買這類相對便宜的顯卡來挑戰計算極限。」
二是因為研究人員現在可從數據庫中獲得大量的數據來對運算法則進行「演練」。數據庫中含有數以百萬計的圖片,每幅圖片都有人類在不同的識別階段作出的注釋。比如,一幅狗的圖片可能會標注為:動物、犬齒類、家養的狗和狗的品種。
在最開始,神經網絡並不能很好地識別出這些圖像。但隨著觀察的圖像越來越多,發生錯誤識別時,它們開始完善計算,如此反復,直到能更准確地識別出物體。
Cadieu說,研究人員還不太明白這些神經網絡究竟是如何識別出不同的物體的。
Cadieu補充說:「這既有優點也有缺點。優點在於我們並不需要真正了解是什麼東西在區別物體。但是缺點是我們很難對這些神經網絡進行檢查,很難看到其內部,很難觀測到它們如何工作。現在人們可以看到,這些神經網絡工作狀態良好,今後通過更多的工作就可以了解它們內部到底是如何工作的。」
目前,Dicarlo實驗室的研究人員致力於生成能夠模擬追蹤運動和識別三維物體形狀等其他視覺處理領域的模型。他們希望可以創建包含人類視覺系統中的反饋投影的模型。現在的神經網絡只能對從視網膜到下顳葉皮質中的「前饋」投影進行建模,而從下顳葉皮質返回到系統中其他部分的聯系要比這多10倍左右。
沒有留言:
張貼留言