&

新聞資訊

圖像傳感器集成計算功能，賦能機器視覺技術

點擊量：
|
添加日期：2022年04月25日

據麥姆斯咨詢報道，視覺是人類與外界交流最重要的感知方式。過去十年里仿生機器視覺迅速發展，如今人工系統已經具備從圖像和視頻“看見”有價值信息的能力，不過相比人眼視覺效率還有一定的差距。奧地利維也納理工大學Lukas Menne等研究人員最近在《自然》中發布了一種媲美于人腦的視覺系統設計，經過訓練后能實現對簡單圖像的納秒級分類。

數碼相機所用的現代圖像傳感器基于半導體（固態）技術，并于二十世紀七十年代初問世。主要分為兩種類型：電荷耦合器件（charge-coupled devices）和主動式像素傳感器（active-pixel sensors）。它們可以“忠實地”從環境中捕獲視覺信息，但會生成大量冗余數據。通常的方式是將大量光學信息轉換為數電格式，然后傳遞到計算單元進行圖像處理。

在傳感器和處理單元之間大量數據移動會引起延遲和高功耗等問題。隨著成像速度和像素數量的增加，帶寬帶來的限制使得難以將所有內容快速返回到中央計算機或基于云的計算機并進行實時處理和決策，這對一些對延遲非常敏感的應用如無人駕駛汽車、機器人或工業制造等尤為重要。

一種更好的解決方案是將一些計算任務轉移到計算機系統外部邊緣傳感設備，從而減少不必要的數據移動。由于傳感器的輸出通常是模擬信號（連續變化），模擬處理勝于數字處理：眾所周知，模數轉換既耗時又耗能。

為了模擬大腦對信息的有效處理，生物神經形態工程采用了一種計算架構。該架構采用高度互連的元素（神經元，通過突觸連接），從而實現并行計算（見圖1a）。這些人工神經網絡可以通過迭代學習周圍環境——例如，為其提供已知示例展示，對事物進行分類（監督學習）；或者，無需額外信息就能通過輸入數據識別對象的特征結構（無監督學習）。在學習期間，算法會反復進行預測，并增強或削弱網絡中的每個突觸，直到達到最佳設置。

圖1：在視覺傳感器內進行計算，實現智能高效的預處理。（a）傳統人工智能（AI）視覺傳感器從光敏傳感器收集信號，利用模數轉換器（ADC）將模擬信號轉換為數字信號，放大后輸入到外部人工神經網絡（ANN）——連接可以進行調整的互連計算單元（圖中用圓形表示）層，經過訓練后，此網絡可以執行諸如圖像分類之類的任務。ANN輸入層接收的信號是編碼后的簡單物理元素（圖中用點和線表示）；在后續層中，這些已優化為中級特征（圖中用簡單形狀表示）；在輸出層上形成精細圖像（圖中用3D形狀表示）。整體響應可能是又慢又耗能。（b）Mennel等研究人員設計的系統中，芯片上的互連傳感器（圖中用正方形表示）不僅可以收集信號，還可以作為ANN來識別簡單功能，從而減少了傳感器和外部電路的冗余數據移動。

Mennel等研究人員直接在圖像傳感器加入了人工神經網絡。他們在芯片上構建了光電二極管網絡，這些光電二極管是對光敏感的微型單元，每個單元中有幾層二硒化鎢（WSe2）原子層。通過調節施加在二極管上的電壓，半導體器件對光的響應程度發生變化，從而實現對每個二極管靈敏度的分別調節。實際上，這將光電傳感器網絡變成了神經網絡（見圖1b），能夠執行簡單的計算任務。改變光電二極管的光響應能力則改變網絡的連接強度（突觸權重）。因此，該器件實現了光學傳感與神經形態計算的結合。

作者將光電二極管排列成九個像素的正方形陣列，每個像素有三個二極管。當圖像投影到芯片上時，會產生不同的二極管電流，再進行組合和讀取。硬件陣列提供了一種模擬計算形式：每個光電二極管都會產生與入射光強度成比例的輸出電流，并且根據基爾霍夫定律（電路電流所遵循的基本規律）將沿行或列的電流值求和。

圖2：光電二極管排列成九像素正方形陣列

接著對陣列進行執行任務的訓練。芯片陣列產生的電流與預測電流（對于給定任務，陣列正確響應圖像應產生的電流）的差異，并用于調整下一次訓練周期的突觸權重。這個學習階段會占用時間和計算資源，但是一旦經過訓練，該芯片將迅速執行其任務。

神經網絡可以采用不同算法，作者在文中演示了兩種神經形態功能。第一種是分類：3 x 3像素陣列可以將圖像分類為三個簡化字母“n、v、z”對應的三個類別之一，從而以納秒為單位識別該字母。這樣的簡單陣列只是為了概念證明，如果按比例增加陣列的大小，則可以進一步擴展，識別更復雜的圖像。

圖3：27個光電探測器的光響應值，其中訓練數據σ = 0.3。（a，b）：其中（a）為初始時期（epoch）的響應度值，（b）時期為30時的響應度值，訓練數據σ = 0.2和σ= 0.4的權重相似。c：在特定的投影字母和三種噪聲水平下，所有時期測得的電流。d：三種不同噪聲水平的初始和最終響應度值的直方圖。

第二個功能是自動編碼：即使在存在信號噪聲的情況下，傳感器計算陣列也可以通過學習圖像的關鍵特征來生成處理后圖像的簡化表示。編碼版本僅包含最基本的信息，但可以解碼以重建與原始圖像最相似的圖像。

這項有前途的技術在投入實際應用之前，還有許多工作要做。用于自動駕駛車輛和機器人技術的神經形態視覺系統需要捕獲視場角較大的3D動態圖像和視頻。當前使用的圖像捕獲技術通常將3D真實世界轉換為2D信息，這樣就丟失了運動信息和深度信息?，F有的平面圖像傳感器陣列也限制了廣角相機的發展。

作者描述的器件很難在昏暗的光線下成像。需要重新設計以改善薄半導體的光吸收并增加探測光強范圍。此外，論文中提到的這種設計需要高電壓并消耗大量功耗。相比之下，生物神經網絡中每項操作的能量消耗處于亞飛焦耳級（10?1?至10?13焦耳）。這有利于擴展到紫外線和紅外光應用，以捕獲可見光譜無法提供的信息。

所使用的薄半導體很難實現大面積地均勻生產，加工難度高，因此它們可以與硅電子器件集成在一起，例如用于讀出外部電路或反饋控制。使用這些傳感器的設備的速度和能效將不取決于圖像捕獲過程，而是取決于傳感器和外部電路之間的數據移動。盡管傳感器計算單元在模擬域中收集和計算數據，減少了模數轉換，但外圍電路仍然遭受其它固有延遲的困擾。傳感器和外部電路需要共同開發，以減少整個系統的等待時間。

Mennel及其同事的“在傳感器中實現計算”系統會激發對人工智能（AI）硬件的進一步研究。一些企業已經開發了基于硅電子的AI視覺芯片，但是這些芯片的固有數字架構無法解決延遲和功率效率問題。

更廣泛地講，作者的策略不僅限于視覺系統。它可以擴展到用于聽覺、觸覺、熱感或嗅覺的其它物理參數輸入。此類智能系統的開發以及5G無線網絡的到來，會在將來允許進行實時邊緣（低延遲）計算。

新聞資訊

公司新聞

行業新聞

圖像傳感器集成計算功能，賦能機器視覺技術

友情鏈接