論文要約：Deep Residual Learning for Image Recognition - やまもとの論文まとめサイト

Deep Residual Learning for Image Recognition

arxiv.org

図表は全て元論文から引用

Abstract

研究目的

より深いニューラルネットワークの訓練を容易にするための残差学習フレームワークを提案する。

方法

層を参照なしの関数学習ではなく、層の入力を参照にした残差関数学習として明示的に再定義する。

結果

これらの残差ネットワークは最適化が容易で、深度を大幅に増やすことで精度が向上することを示す。ImageNetデータセットでは、VGGネットよりも8倍深い152層の残差ネットを評価し、複雑さは低いままである。これらの残差ネットのアンサンブルは、ImageNetテストセットで3.57％のエラーを達成した。この結果は、ILSVRC 2015の分類タスクで1位を獲得した。

結論

表現の深さは、多くの視覚認識タスクにとって中心的な重要性を持つ。極めて深い表現だけにより、COCOオブジェクト検出データセットで28％の相対的な改善を達成した。深い残差ネットは、著者たちがILSVRC＆COCO 2015コンペティションに提出した基盤であり、ImageNet検出、ImageNetローカライゼーション、COCO検出、COCOセグメンテーションのタスクで1位を獲得した。

Introduction

- ディープ畳み込みニューラルネットワークは画像分類においてブレークスルーをもたらし、深いネットワークは低/中/高レベルの特徴と分類器を統合する。
- ネットワークの深さが重要であり、ImageNetデータセットにおける最先端の結果はすべて「非常に深い」モデルを利用している。
- ネットワークが深くなると、精度が飽和し、急速に低下するという劣化問題が明らかになった。これは過学習によるものではなく、適切に深いモデルにさらに層を追加すると、訓練誤差が増加する。

- この論文では、深い残差学習フレームワークを導入し、劣化問題に対処する。各層が直接望ましいマッピングを適合させるのではなく、これらの層が残差マッピングを適合させるようにする。
- ImageNetとCIFAR-10のデータセットで実験を行い、深い残差ネットが最適化しやすく、深さが増すと訓練誤差が増加する「プレーン」ネットと比較して、大幅に深さが増加した場合でも精度が向上することを示した。
- ImageNet分類データセットでは、非常に深い残差ネットにより優れた結果を得た。また、他の認識タスクでも優れた汎化性能を示し、ILSVRC＆COCO 2015コンペティションでImageNet検出、ImageNetローカライゼーション、COCO検出、COCOセグメンテーションの各部門で1位を獲得した。

・残差表現：画像認識では、VLADは辞書に対する残差ベクトルをエンコードする表現であり、Fisher VectorはVLADの確率的バージョンとして定式化できる。これらは画像検索と分類のための強力な浅い表現である。ベクトル量子化では、元のベクトルをエンコードするよりも残差ベクトルをエンコードする方が効果的であることが示されている。
・低レベルビジョンとコンピュータグラフィックスでは、部分微分方程式（PDEs）を解くために、Multigrid法が広く使用されている。これは、各サブ問題が粗いスケールと細かいスケールの間の残差解を担当する複数のスケールでのサブ問題としてシステムを再定式化する。
・ショートカット接続：ショートカット接続につながる実践と理論は長い間研究されてきた。初期の多層パーセプトロン（MLPs）の訓練では、ネットワーク入力から出力への線形層を追加することが一般的であった。
・著者らの作業と並行して、「ハイウェイネットワーク」はゲーティング機能を持つショートカット接続を提示している。これらのゲートはデータ依存であり、パラメータを持つ。これに対して、著者らの独自性はショートカットがパラメータフリーであることである。

Residual Learning

- H(x)をいくつかの積層レイヤー（必ずしも全ネットではない）によってフィットさせる基礎的なマッピングと考え、xはこれらのレイヤーの最初の入力を示す。
- 複数の非線形レイヤーが複雑な関数を漸近的に近似できると仮定すると、それらが残差関数、つまりH(x)x（入力と出力が同じ次元であると仮定）を漸近的に近似できると仮定するのと同等である。
- 積層レイヤーがH(x)を近似することを期待するのではなく、これらのレイヤーが残差関数F(x) := H(x)xを明示的に近似するようにする。元の関数はF(x)+xとなる。
- この再定式化は、劣化問題（図1、左）についての直感に反する現象によって動機づけられている。追加されたレイヤーが同一マッピングとして構築できる場合、より深いモデルはその浅い対応物よりも訓練誤差が大きくなるべきではない。- 実際のケースでは、同一マッピングが最適であることはまれであるが、再定式化により問題の事前条件を設定するのに役立つ可能性がある。最適な関数がゼロマッピングよりも同一マッピングに近い場合、ソルバーは新しい関数として学習するよりも、同一マッピングを参照にして摂動を見つける方が容易であるべきである。

Identity Mapping by Shortcuts

- 本研究では、数層ごとに残差学習を採用しています。図2に示すようなビルディングブロックを定義しています：

ここで、xとyは考慮される層の入力と出力ベクトルで、F(x, {W i })は学習すべき残差マッピングを表します。

- 2層の例では、F = W 2 σ(W 1 x)でσはReLUを示し、バイアスは表記を簡素化するため省略されています。F + xの操作はショートカット接続と要素ごとの加算によって行われます。
- ショートカット接続は追加のパラメータや計算複雑性を導入せず、これは実践的に魅力的であり、また、プレーンネットワークと残差ネットワークの比較において重要です。
- xとFの次元は等しくなければならず、そうでない場合（例えば、入力/出力チャネルを変更する場合）は、ショートカット接続による線形射影Wsを行うことで次元を合わせることができます：

- 残差関数Fの形式は柔軟で、本研究では2層または3層の関数Fを用いた実験を行っています。ただし、Fが1層しかない場合、Eqn.( 1)は線形層に似ており、その利点は観察されません。
- 以上の表記は全結合層についてのものですが、畳み込み層にも適用可能です。F(x, {W i })は複数の畳み込み層を表すことができます。要素ごとの加算は、チャネルごとに2つの特徴マップ上で行われます。

Network Architectures

- 様々なプレーン/残差ネットをテストし、一貫した現象を観察しました。議論のための例として、ImageNetの2つのモデルを以下のように説明します。
- プレーンネットワーク：私たちのプレーンベースライン（図3、中央）は主にVGGネット[41]（図3、左）の哲学に触発されています。畳み込み層は主に3×3のフィルターを持ち、2つのシンプルな設計ルールに従います：(i) 同じ出力特徴マップサイズの場合、レイヤーは同じ数のフィルターを持つ、(ii) 特徴マップサイズが半分になると、フィルターの数は時間複雑度を保つために倍になります。ダウンサンプリングは、ストライド2の畳み込み層によって直接行います。ネットワークはグローバル平均プーリング層と1000ウェイの全結合層、ソフトマックスで終わります。重み付けされたレイヤーの総数は図3で34です。

- 著者らのモデルは、VGGネット[41]よりもフィルターが少なく、複雑さが低いことに注目すべきです（図3 レジデュアルネットワーク）。
- 上記のプレーンネットワークに基づき、ショートカット接続（図3、右）を挿入し、ネットワークをその対応するレジデュアルバージョンに変換します。
- 入力と出力が同じ次元の場合、アイデンティティショートカット（式（1））を直接使用できます（図3の実線ショートカット）。
- 次元が増加する場合（図3の点線ショートカット）、2つのオプションを考慮します：（A）ショートカットは依然としてアイデンティティマッピングを実行し、次元を増やすために余分なゼロエントリをパディングします。このオプションは追加のパラメータを導入しません。（B）次元を合わせるために、射影ショートカット（式（2））が使用されます（1×1の畳み込みによって行われます）。
- 両方のオプションについて、ショートカットが2つのサイズの特徴マップを横切るとき、それらはストライド2で実行されます。

Implementation

- 画像認識の実装は[21,41]の手法に従って行います。画像は短辺が[256, 480]の範囲でランダムにリサイズされ、スケール拡張[41]が行われます。
- 画像またはその水平反転からランダムに224×224のクロップがサンプリングされ、ピクセルごとの平均が減算されます[21]。
- [21]で使用されている標準的な色補正が適用されます。
- 各畳み込みの直後と活性化の前にバッチ正規化(BN)[16]を採用し、[16]に従います。
- 重みは[13]の方法で初期化し、すべてのプレーン/残差ネットをゼロから訓練します。
- SGDを使用し、ミニバッチサイズは256です。学習率は0.1から始まり、エラーが平らになると10で割ります。モデルは最大60 × 10 4回の反復で訓練されます。
- 重みの減衰は0.0001、モーメンタムは0.9です。ドロップアウト[14]は使用せず、[16]の手法に従います。
- テストでは、比較研究のために標準的な10クロップテスト[21]を採用します。最良の結果を得るために、[41,13]のような完全畳み込み形式を採用し、複数のスケールでスコアを平均化します（画像は短辺が{224, 256, 384, 480, 640}になるようにリサイズされます）。

Experiments

ImageNet Classification

- ImageNet 2012分類データセットを用いて、著者らの手法を評価した。モデルは128万の訓練画像で訓練し、5万の検証画像で評価した。また、テストサーバーが報告した10万のテスト画像の最終結果も得た。Top-1とTop-5のエラーレートを評価した。
- まず、18層と34層のプレーンネットを評価した。34層のプレーンネットは図3（中）に示されている。18層のプレーンネットも同様の形式である。詳細なアーキテクチャは表1を参照。

- 表2の結果から、深い34層のプレーンネットは、浅い18層のプレーンネットよりも検証エラーが高いことがわかった。その理由を明らかにするために、図4（左）で訓練/検証エラーを比較した。訓練過程全体で34層のプレーンネットの訓練エラーが高いことが観察された。

- 次に、18層と34層の残差ネット（ResNets）を評価した。基本的なアーキテクチャは上記のプレーンネットと同じで、各3×3フィルターのペアにショートカット接続が追加されている（図3（右））。最初の比較では、すべてのショートカットに対してアイデンティティマッピングを使用し、次元を増やすためにゼロパディングを使用した（オプションA）。
- 表2と図4から3つの主要な観察結果が得られた。まず、残差学習により状況が逆転し、34層のResNetが18層のResNetよりも優れている（2.8%）。さらに、34層のResNetは訓練エラーが大幅に低く、検証データに対して汎用性があることが示された。
- 最後に、著者らの152層のResNetは単一モデルのTop-5検証エラーが4.49%で、これはすべての以前のアンサンブル結果を上回る。異なる深さの6つのモデルを組み合わせてアンサンブルを形成し、テストセットで3.57%のTop-5エラーを達成した（表5）。このエントリーはILSVRC 2015で1位を獲得した。

CIFAR-10 and Analysis

- CIFAR-10データセット（50kの訓練画像と10kのテスト画像、10クラス）についてさらに研究を行いました。訓練セットで訓練し、テストセットで評価する実験を行いました。
- 極めて深いネットワークの挙動に焦点を当て、最先端の結果を追求するのではなく、意図的に以下のようなシンプルなアーキテクチャを使用しました。
- ネットワークの入力は32×32の画像で、ピクセルごとの平均が引かれています。最初のレイヤーは3×3の畳み込みです。
- その後、特徴マップのサイズが{32, 16, 8}である3×3の畳み込みを持つ6n層をスタックし、各特徴マップサイズに対して2n層を使用します。フィルターの数はそれぞれ{16, 32, 64}です。
- サブサンプリングはストライド2の畳み込みによって行われます。ネットワークはグローバル平均プーリング、10方向の全結合層、そしてソフトマックスで終わります。
- このデータセットでは、すべてのケースでアイデンティティショートカット（オプションA）を使用し、残差モデルは平坦な対応物と全く同じ深さ、幅、パラメータ数を持ちます。
- さらに、n = 18を探索し、110層のResNetを導き出します。この場合、初期の学習率0.1は少し大きすぎて収束し始めるのに適していないことがわかりました。
- 1000層以上のモデルを探索しました。n = 200を設定し、1202層のネットワークを導き出しました。このネットワークは訓練誤差が0.1%未満（図6、右）を達成することができました。

Exploring Over 1000 layers.

-1000層を超える深いモデル（1202層ネットワーク）を探索し、訓練エラーは0.1%未満、テストエラーは7.93%と良好な結果を達成。
-しかし、1202層ネットワークは110層ネットワークよりもテスト結果が悪く、これは過学習が原因と考えられる。
-強力な正則化技術（maxoutやdropoutなど）を使用せずに、深く細いアーキテクチャによるシンプルな正則化を試みたが、将来的には強力な正則化との組み合わせによる改善を検討。

Object Detection on PASCAL and MS COCO

- 著者らの手法は他の認識タスクに対しても良好な汎化性能を持っています。表7と8は、PASCAL VOC 2007と2012 [5] およびCOCO [26] におけるオブジェクト検出の基本結果を示しています。

- 検出方法としてFaster R-CNN [32] を採用しています。ここでは、VGG-16 [41] をResNet-101に置き換えることによる改善に興味があります。
- 両モデルを使用した検出の実装（付録参照）は同じであるため、得られる利益はより優れたネットワークにのみ帰せられます。
- 特に注目すべきは、難易度の高いCOCOデータセットで、COCOの標準メトリック（mAP@[.5, .95]）で6.0％の増加、つまり28％の相対的な改善を達成したことです。この利益は、学習した表現にのみ起因しています。
- 深層残差ネットに基づいて、著者らはILSVRC＆COCO 2015の競技会でいくつかのトラックで1位を獲得しました：ImageNet検出、ImageNet位置特定、COCO検出、およびCOCOセグメンテーション。詳細は付録にあります。