尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
人工智能瓶頸注意力模塊,人類感知類似的層次推理瓶頸注意力模塊(特約點評:人工智能瓶頸注意力模塊,人類感知類似的層次推理瓶頸注意力模塊對於注意力模型提供了新的思路,這個創新點趣說人工智能必須推薦。來自網友笑笑的推薦!)
摘要:深度神經網路的最新進展已經通過架構搜尋開發出更強的代表能力。在這項工作中,我們關注一般深度神經網路中注意力的影響。我們提出了一個簡單有效的注意模塊,名為瓶頸注意模塊(BAM),可以與任何前饋卷積神經網路集成。我們的模塊沿著兩個獨立的路徑,即通道和空間推斷出注意力圖。我們將模塊放置在模型的每個瓶頸中,其中發生特徵映射的下采樣。我們的模塊通過許多參數在瓶頸上構建層次關注,並且可以與任何前饋模型一起以端到端的方式進行訓練。我們通過CIFAR-100,ImageNet-1K,VOC 2007和MS COCO基準測試的大量實驗來驗證我們的BAM。我們的實驗表明,各種模型在分類和檢測性能方面都有一定的改進,證明了BAM的廣泛適用性。代碼和模型將公開提供1。
介紹:深度學習是一系列模式識別應用的強大工具,包括分類,檢測,分割和控制問題。由於其數據驅動特性和大規模並行計算的可用性,深度神經網路在大多數領域做到了最先進的結果。研究人員已經做了很多努力,以各種方式提高性能,例如設計優化器[28,48],提出對抗性訓練方案[11],或任務特定的元架構,如2階段架構[37]進行檢測。
提高性能的基本方法是設計一個良好的骨幹架構。自第一個大規模深度神經網路AlexNet [30]以來,已經提出了各種骨幹架構,如VGGNet [40],GoogLeNet [41],ResNet [16],DenseNet [20]。所有骨幹架構都有自己的設計選擇,並且在先前的架構上顯示出顯著的性能提升。
提升網路性能的最直觀方法是堆疊更多層。然後,深度神經網路能夠使用其深層來近似高維函數。 VGGNet [40]和ResNet [15]的理念正是遵循這一點。與AlexNet [30]相比,VGGNet還有兩層。此外,ResNet的層數比VGGNet多22倍,並且通過採用殘餘連接改善了梯度流量。 GoogLeNet [41]也非常深入,在每個卷積塊中使用具有各種濾波器大小的特徵串聯。在同一層使用各種功能可以提高性能,從而做到強大的代表性。 DenseNet [20]也使用不同特徵圖的串聯,但這些特徵來自不同的層。換句話說,卷積層的輸出在輸入特徵映射上迭代地連接。 WideResNet [47]表明,使用更多信道,更廣泛的卷積,可以做到比天真深化網路更高的性能。同樣,PyramidNet [13]表明,增加更深層次的通道可以有效地提高性能。最近採用分組卷積的方法,如ResNeXt [43]或Xception [7],將最先進的性能表現為骨幹架構。 ResNeXt和Xception的成功來自於具有更高基數的卷積,可以有效地做到高性能。此外,一個實用的研究方向是找到面向移動的,計算有效的架構。 MobileNet [18]與ResNeXt和Xception共享類似的哲學,使用具有高基數的深度卷積。
貢獻:除了以前的方法,我們研究注意力在DNN中的作用,並提出一個簡單,輕量級的模塊用於一般DNN。也就是說,所提出的模塊被設計為易於與現有CNN架構集成。在許多以前的工作中已經研究了深度神經網路中的注意機制[2,3,12,25,35,44]。雖然以前的大多數作品都是針對任務特定目的而使用注意力,但我們明確地將注意力的使用作為一種以極其有效的方式提高網路表征能力的方法。因此,我們提出了「瓶頸注意模塊」(BAM),這是一個簡單而有效的注意模塊,可用於任何CNN。給定3D特徵圖,BAM生成3D注意力圖以強調重要元素。在BAM中,我們分解了在兩個流中推斷3D注意力圖的過程(圖2),從而顯著降低了計算和參數開銷。由於特徵映射的通道可以被視為特徵檢測器,因此兩個分支(空間和通道)明確地了解要關注的「什麼」和「何處」。
我們測試了BAM在各種任務中使用各種基線架構的功效。在CIFAR-100和ImageNet分類任務中,我們通過放置BAM觀察到基線網路的性能改進。有趣的是,我們觀察到位於不同瓶頸的多個BAM構成了層次關注,如圖1所示。最後,我們驗證了對象檢測在VOC 2007和MS COCO數據集上的性能改進,證明了BAM的廣泛適用性。由於我們精心設計的模塊重量輕,因此參數和計算開銷可以忽略不計。
貢獻。我們的主要貢獻是三倍。1.我們提出了一個簡單而有效的關注模塊BAM,它可以與任何沒有鈴聲和口哨聲的CNN集成。2 我們通過廣泛的消融研究驗證了BAM的設計。3.我們在多個基準測試(CIFAR-100,ImageNet-1K,VOC 2007和MS COCO)上的各種基線架構的大量實驗中驗證了BAM的有效性。
相關工作:許多研究[8,24,38]表明,注意力在人類感知中起著重要作用。例如,人眼中央凹中心的分辨率高於周圍區域[17]。為了有效和自適應地處理視覺信息,人類視覺系統迭代地處理空間瞥見並關注顯著區域[31]。
跨模式的關注。注意機制是多模態設置中廣泛使用的技術,特別是在某些模態應該被處理以適應其他模態的情況下。視覺問答(VQA)任務是這類任務的一個眾所周知的例子。給定圖像和自然語言問題,任務是預測答案,例如計算數字,推斷目標的位置或屬性。 VQA任務可以看作是一組動態變化的任務,其中應該根據給定的問題處理提供的圖像。注意機制輕柔地選擇圖像特徵中的任務(問題) – 相關方面。如[45]中所建議的,圖像特徵的注意力圖是根據給定的問題產生的,它用作查詢以檢索與問題相關的特徵。最終答案分類為堆疊圖像功能。另一種方法是使用雙向推斷,為文本和圖像生成注意力圖,如[36]中所述。在這些文獻中,注意力圖被用作以有條件的方式解決任務的有效方式,但是它們在不同的階段被訓練以用於特定任務目的。
自我關注。已經有各種方法將注意力集中在DNN中,以端到端的方式聯合訓練特徵提取和注意力產生。已經做了一些嘗試[19,42]將注意力作為一般分類任務的有效解決方案。王等人。已經提出了殘餘注意網路,它使用沙漏模塊生成中間特徵的3D注意力圖。由於生成的注意力圖,即使該架構也能抵抗噪聲標籤,由於3D地圖生成過程繁重,計算/參數開銷很大。胡等人。已經提出了一個緊湊的「擠壓和激勵」模塊來利用信道間關係。盡管在論文中沒有明確說明,但它可以被視為應用於通道軸的注意機制。然而,他們錯過了空間軸,這也是推斷準確的注意力圖的重要因素。
自適應模塊。以前的幾個作品使用自適應模塊,根據輸入動態改變輸出。動態濾波網路[27]建議基於輸入特徵生成卷積特徵以做到靈活性。空間變換器網路[26]使用輸入特徵自適應地生成仿射變換的超參數,以便最終很好地對準目標區域特徵映射。這可以看作是對特徵圖的一種強烈關注。可變形卷積網路[9]使用可變形卷積,其中匯集偏移是從輸入特徵動態生成的,因此只有相關特徵被匯集用於卷積。與上述方法類似,BAM也是一個獨立的自適應模塊,通過注意機制動態抑制或強調特徵圖。
在這項工作中,我們通過簡單輕巧的設計利用通道和空間軸。此外,我們找到了一個有效的位置來放置我們的模塊 – 網路的瓶頸。
結論:我們提出了瓶頸關注模塊(BAM),這是一種增強網路表示能力的新方法。我們的模塊通過兩個不同的途徑了解有效聚焦或抑制的內容和位置,並有效地改進中間特徵。在人類視覺系統的啟發下,我們建議將注意力模塊置於網路的瓶頸,這是信息流的最關鍵點。為了驗證其功效,我們使用各種最先進的模型進行了大量實驗,並確認BAM優於三種不同基準數據集的所有基線:CIFAR-100,ImageNet-1K,VOC2007和MS COCO。此外,我們可視化模塊如何作用於中間特徵圖以獲得更清晰的理解。有趣的是,我們觀察到了與人類感知程序類似的層次推理過程。我們相信,我們在瓶頸上的自適應特徵細化的發現也有助於其他視覺任務。
原文標題:BAM: Bottleneck Attention Module