論文要約: Dropout: A Simple Way to Prevent Neural Networks from Overfitting

Dropout: A Simple Way to Prevent Neural Networks from Overfitting

jmlr.org

ライセンス CC BY 4.0 Deed | Attribution 4.0 International | Creative Commons

図表は元論文から引用

Abstract

目的:

過学習の問題を解決し、大規模ニューラルネットワークの効率を向上させる。

方法:

レーニング中にランダムにユニットをドロップすることで、ネットワークの過度な共適応を防ぐ。

結果:

視覚、音声認識、文書分類、計算生物学のタスクで最先端の結果を達成。

結論:

Dropoutは過学習を削減し、他の正則化方法よりも優れた改善を提供する。

 

Introduction

    •    深層ニューラルネットワークは、多数の非線形隠れ層を含むことで、入力と出力の間の複雑な関係を学習できる非常に表現力豊かなモデルです。しかし、限られた訓練データでは、これらの複雑な関係の多くがサンプリングノイズの結果となり、訓練セットには存在しても実際のテストデータには存在しないことがある。
    •    この問題は過学習につながり、過学習を減少させる多くの方法が開発されている。これには、検証セットのパフォーマンスが悪化し始めたら直ちに訓練を停止する、L1やL2正則化のような様々な重みペナルティを導入する、及びソフトウェイト共有などが含まれる。
    •    理論的には、無限の計算能力があれば、固定サイズのモデルを「正則化」する最良の方法は、パラメータの全ての可能な設定の予測を、訓練データに基づいた事後確率で重み付けして平均することである。これは、単純または小さなモデルに対してはかなりよく近似できる場合がありますが、より少ない計算でベイズのゴールドスタンダードの性能に近づけることを目指している。
    •    大規模なニューラルネットワークでは、多くの別々に訓練されたネットの出力を平均するという明白なアイデアは、実現が厳しいほどに計算量が多い。複数のモデルを組み合わせることは、個々のモデルが互いに異なる場合に最も有効だが、ニューラルネットモデルを異なるものとするには、異なるアーキテクチャを持つか、異なるデータで訓練する必要がある。

   •  多様なアーキテクチャを訓練することは困難であり、各アーキテクチャの最適なハイパーパラメータを見つけることは困難な作業であり、大規模ネットワークの訓練には多大な計算が必要である。

 

Dropout

    •    Dropoutは、過学習を防ぎ、効率的に指数関数的に多くの異なるニューラルネットワークアーキテクチャを近似的に組み合わせる方法を提供する技術です。この手法では、ニューラルネットワーク内のユニット(隠れ層と可視層の両方)をランダムに「ドロップアウト」(一時的に除外)する。

    •    各ユニットは固定確率pで保持され、この確率は検証セットを使用して選択されるか、または多くのネットワークとタスクで最適に近いとされる0.5に設定される。入力ユニットについては、保持確率は通常1に近い方が最適である。
    •    ニューラルネットワークにDropoutを適用することは、それから「間引きされた」ネットワークをサンプリングすることに相当する。nユニットを持つニューラルネットは、2^n個の可能な間引きされたニューラルネットワークの集合と見なすことができ、これらのネットワークはすべて重みを共有する。
    •    トレーニング中、各トレーニングケースごとに新しい間引きされたネットワークがサンプリングされ、訓練される。したがって、Dropoutを使用してニューラルネットワークを訓練することは、2^n個の細らされたネットワークのコレクションを、広範な重み共有で訓練することと同じである。
    •    テスト時には、指数関数的に多くの間引きされたモデルからの予測を明示的に平均化することは実現不可能だが、実践でうまく機能する非常にシンプルな近似平均化方法がある。それは、トレーニング中にユニットが保持される確率pで出力重みを乗算することで、トレーニング時とテスト時の期待出力を同じにすることである。

・本論文では、ドロップアウトの概念をフィードフォワードニューラルネットワークに限定せず、ボルツマンマシンなどのグラフィカルモデルにも適用可能であることを紹介している。特に、ドロップアウト制限ボルツマンマシン(RBM)モデルを標準の制限ボルツマンマシンと比較し、特定の点でドロップアウトRBMが標準RBMより優れていることを実験で示している。

 

Motivation

- ドロップアウトの動機の一つは、進化における性の役割に関する理論から来ている。性的生殖は、親の遺伝子を半分ずつ組み合わせ、ごく少量の突然変異を加えて子孫を生産する過程である。対照的に、無性生殖は親の遺伝子のわずかに変異したコピーで子孫を作る。無性生殖が個体の適応を最適化する上で優れているように思われるが、性的生殖は高等生物の進化の途中で採用されている。
- 性的生殖の優位性を説明する一つの可能性は、自然選択の基準が個々の適応性ではなく、遺伝子の混ざりやすさにあるかもしれない。遺伝子セットが他のランダムな遺伝子セットと上手く機能する能力は、それをより頑健にする。遺伝子は、常に大量のパートナーが存在するわけではないため、単独であるいは少数の他の遺伝子と協力して何か有用なことをすることを学ばなければならない。
- 性的生殖の役割は、新しい有用な遺伝子が集団全体に広がることを可能にするだけでなく、新しい遺伝子が個々の適応性を高めるチャンスを減らす複雑な共適応を減少させることである。
- 同様に、ドロップアウトで訓練されたニューラルネットワーク内の各隠れユニットは、ランダムに選択された他のユニットのサンプルと共に働くことを学ぶ必要がある。これは各隠れユニットをより頑健にし、他の隠れユニットに依存せずに独自の有用な特徴を作り出すようになる。

 

- ドロップアウトは、隠れユニットにノイズを加えることでニューラルネットワーク正則化する方法として解釈できる。以前から、デノイジングオートエンコーダ(DAEs)の文脈でユニットの状態にノイズを加えるアイデアがVincentらによって使用されていた。ここでは、オートエンコーダの入力ユニットにノイズを加え、ネットワークがノイズのない入力を再構築するように訓練される。
- 著者らの研究は、ドロップアウトが隠れ層にも効果的に適用でき、モデル平均化の形として解釈できることを示している。さらに、ノイズの追加が教師なし特徴学習だけでなく、教師あり学習問題にも拡張できることも示している。実際、この方法はボルツマンマシンなどの他のニューロンベースのアーキテクチャにも適用できる。
- ドロップアウトは、ノイズ分布の下で損失関数を確率的に最小化する技術と見なすことができる。これは、期待損失関数を最小化することと見なすことができる。GlobersonとRoweis(2006)、Dekel et al.(2010)の先行研究は、敵がどのユニットをドロップするかを選択できる設定で損失が最小化される代替設定を探求している。ここでは、ノイズ分布ではなく、ドロップできるユニットの最大数が固定されている。しかし、この作業でも隠れユニットを持つモデルは探求されていない。

 

Model Description

-ドロップアウトニューラルネットワークモデルは、L個の隠れ層を持つニューラルネットワークに対して定義される。
-各層 l において、入力ベクトル  z^(l) 、出力ベクトル y^(l) 、重み W^(l) 、バイアス b^(l)  が存在する。標準的なニューラルネットワークでは、次の層への入力は前の層の出力、重み、バイアスを用いて計算される。

-ドロップアウトを適用する場合、各層の各ユニットがランダムにドロップアウト(除外)されるかどうかがベルヌーイ分布に従って決定され、選択されたユニットの出力が次の層への入力に使用される。これにより、ネットワークは訓練中にさまざまなサブネットワークを模倣する。

-ここで「∗」は要素ごとの積を表す。任意の層 l において、r^(l)  は独立したベルヌーイ乱数変数のベクトルであり、各要素は1になる確率 p を持つ。このベクトルはサンプリングされ、その層の出力 y^(l)  と要素ごとに乗算され、間引きされた出力 を作成する。
-間引きされた出力は次の層への入力として使用される。このプロセスは各層で適用され、より大きなネットワークからサブネットワークをサンプリングすることに相当する。学習においては、損失関数の導関数がサブネットワークを通して逆伝播される。テスト時には、重みは   としてスケーリングされる。これにより得られるニューラルネットワークは、ドロップアウトなしで使用される。

 

. Learning Dropout Nets

-ドロップアウトニューラルネットワークは、標準的なニューラルネットと同様に、確率的勾配降下法を用いて訓練することができる。唯一の違いは、ミニバッチ内の各訓練ケースに対して、ユニットをドロップアウトすることで細らされたネットワークをサンプリングする点である。
-この間引いたネットワーク上でのみ、その訓練ケースに対する順伝播と逆伝播が行われる。各パラメータに対する勾配は、ミニバッチ内の訓練ケースごとに平均される。パラメータを使用しない訓練ケースは、そのパラメータに対してゼロの勾配を寄与する。
-モーメンタム、焼きなまし学習率、L2重み減衰など、確率的勾配降下法を改善するために多くの方法が使用されてきた。これらはドロップアウトニューラルネットワークにも有用であることがわかった。
-特にドロップアウトに有用な正則化の形態の一つとして、各隠れユニットへの入力重みベクトルのノルムを固定定数 c で上限することが挙げられる。つまり、任意の隠れユニットに入射する重みベクトル w に対して、ニューラルネットワークは  の制約の下で最適化される。この制約は、w がそれを超えた場合に、w を半径 c の球の表面に射影することによって最適化中に課される。これは最大ノルム正則化とも呼ばれ、任意の重みのノルムが取り得る最大値が c であることを意味する。

Unsupervised Pretraining 

-ニューラルネットワークは、RBM(Hinton and Salakhutdinov, 2006)、オートエンコーダ(Vincent et al., 2010)やディープボルツマンマシン(Salakhutdinov and Hinton, 2009)のスタックを用いて事前学習することができる。事前学習は、ラベルのないデータを利用する有効な方法である。
-これらの技術を用いて事前学習されたネットは、ドロップアウトを適用してファインチューニングすることができる。事前学習のプロセス自体に変更はない。ただし、事前学習から得られた重みは 1/p の係数でスケールアップする必要がある※1。これにより、ランダムドロップアウト時の任意のユニットからの期待出力が、事前学習時の出力と同じになることを保証する。
-当初はドロップアウトの確率的な性質が、事前学習で得た重みの情報を損なうのではないかと心配されていた。これは、ファインチューニング時に使用される学習率が、ランダムに初期化されたネットワークの最良の学習率に匹敵する場合に発生した。しかし、より小さい学習率が選択された場合、事前学習で得た重みの情報が保持されるようであり、ファインチューニング時にドロップアウトを使用しない場合と比較して、最終的な汎化誤差の面で改善が得られた。

※1 事前学習にドロップアウトを用いない場合の話だと思われる。

 

Experimental Results 

-分類問題において、異なるドメインのデータセットドロップアウトニューラルネットワークを訓練した。ドロップアウトを使用しないニューラルネットワークと比較して、すべてのデータセットで汎化性能が向上したことがわかった。
-使用されたデータセットは以下の通りである。

  • MNIST(手書き数字の標準的なトイデータセット)、
  • TIMIT(クリーンな音声認識のための標準的な音声ベンチマーク)、
  • CIFAR-10およびCIFAR-100(小さな自然画像)、
  • Street View House Numbers(SVHN)データセットGoogle Street Viewによって収集された家の番号の画像)、
  • ImageNet(大規模な自然画像コレクション)、
  • Reuters-RCV1(ロイター通信社の新聞記事のコレクション)、
  • Alternative Splicingデータセット(代替遺伝子スプライシングを予測するためのRNA特徴)。

-ドロップアウトニューラルネットの改善に一般的な技術であり、特定のアプリケーションドメインに特化していないことを示すために、多様なデータセットを選択した。このセクションでは、ドロップアウトの効果を示すいくつかの重要な結果を提示している。

MNIST

MNISTデータセットは、28×28ピクセルの手書き数字画像から構成される。タスクは、画像を10の数字クラスに分類することである。ドロップアウトと他の技術のパフォーマンスを比較すると、ドロップアウトや教師なし事前学習を使用しない順序不変設定での最良のニューラルネットワークは約1.60%の誤差を達成する(Simard et al., 2003)。ドロップアウトを使用すると、誤差は1.35%に減少する。ロジスティックユニットを修正線形ユニット(ReLUs)(Jarrett et al., 2009)に置き換えると、さらに誤差が1.25%に減少する。最大ノルム正則化を追加すると、再びそれを1.06%に減少させる。ネットワークのサイズを大きくすると、より良い結果が得られる。2層で各層に8192ユニットを持つニューラルネットは、0.95%の誤差にまで下がる。このネットワークは6500万以上のパラメータを持ち、60000のサイズのデータセットで訓練されている。このサイズのネットワークを標準的な正則化方法と早期停止を用いて良い汎化誤差で訓練することは非常に難しい。一方、ドロップアウトは、この場合でも過学習を防ぐ。早期停止すら必要としない。Goodfellow et al. (2013)は、ReLUユニットをmaxoutユニットに置き換えることで、結果をさらに0.94%に改善できることを示した。すべてのドロップアウトネットは、隠れユニットに対してp = 0.5、入力ユニットに対してp = 0.8を使用している。

・RBMのスタックやディープボルツマンマシンで事前学習されたドロップアウトネットも、表2に示されているように改善をもたらす。DBMで事前学習されたドロップアウトネットは、順序不変設定でこれまでに報告された中で最良の性能である0.79%のテスト誤差を達成する。
・2次元の空間情報を使用し、標準訓練セットからの画像の歪んだバージョンで訓練セットを拡張することで、より良い結果を得ることが可能である。より興味深いデータセットにおいて、その設定でドロップアウトの有効性を示す。
ドロップアウトの堅牢性をテストするために、すべてのハイパーパラメータ(pを含む)を固定したまま、多様なアーキテクチャのネットワークで分類実験が行われた。図4は、訓練が進行するにつれてこれら異なるアーキテクチャで得られたテスト誤差率を示している。ドロップアウトを使用した場合と使用しない場合で訓練された同じアーキテクチャは、2つの別々の軌跡のクラスタによって見られるように、大きく異なるテスト誤差を持つ。ドロップアウトは、各アーキテクチャに特化して調整されたハイパーパラメータを使用せずに、すべてのアーキテクチャにわたって大幅な改善をもたらす。

Street View House Numbers

・Street View House Numbers (SVHN) データセットは、Google Street Viewによって収集された家の番号のカラー画像から構成される。このデータセットの画像の例を下図が示している。実験で使用されるデータセットの部分は、家の番号の中の数字に大まかに中心を合わせた32×32のカラー画像である。タスクは、その数字を特定することである。


・このデータセットに対して、ドロップアウトを畳み込みニューラルネットワークに適用した(LeCun et al., 1989)。見つかった最良のアーキテクチャは、3つの畳み込み層の後に2つの完全に接続された隠れ層が続くものであった。すべての隠れユニットはReLUsであった。各畳み込み層の後には最大プーリング層が続いた。
・ネットワークのすべての層にドロップアウトが適用され、隠れユニットを保持する確率はネットワークの異なる層(入力から畳み込み層へ、完全に接続された層へ)に対してp = (0.9, 0.75, 0.75, 0.5, 0.5, 0.5)であった。畳み込み層と完全に接続された層の両方で、重みに対して最大ノルム正則化が使用された。表3は、異なる方法によって得られた結果を比較している。畳み込みネットが他の方法よりも優れていることがわかる。ドロップアウトを使用しない最良の性能を持つ畳み込みネットは、誤差率が3.95%であった。完全に接続された層にのみドロップアウトを追加すると、誤差は3.02%に減少する。畳み込み層にもドロップアウトを追加すると、さらに誤差は2.55%に減少する。maxoutユニットを使用することで、さらに大きな利得が得られる。
・畳み込み層にドロップアウトを追加することによって得られる性能の追加的な向上(3.02%から2.55%への減少)は注目に値する。畳み込み層はパラメータが多くないため、過学習は問題ではなく、したがってドロップアウトはあまり効果がないと考えられがちであるが、下層のドロップアウトは、それが高い完全に接続された層にノイズの多い入力を提供し、それらが過学習するのを防ぐために依然として役立つ。

 

CIFAR-10 and CIFAR-100

・CIFAR-10とCIFAR-100データセットは、それぞれ10カテゴリーと100カテゴリーから引き出された32×32のカラー画像で構成されている(下図)

 

・表4は、これらのデータセットにおける異なる方法によって得られた誤差率を示している。データ拡張を行わない場合、Snoek et al. (2012)はベイジアンハイパーパラメータ最適化を使用してCIFAR-10で14.98%の誤差率を達成した。完全に接続された層でドロップアウトを使用することで、それを14.32%に減少させ、すべての層にドロップアウトを追加することでさらに誤差を12.61%に減少させた。Goodfellow et al. (2013)は、ReLUユニットをmaxoutユニットに置き換えることで、誤差がさらに11.68%に減少することを示した。CIFAR-100では、ドロップアウトは誤差を43.48%から37.20%に減少させ、これは大きな改善である。どちらのデータセットにもデータ拡張は使用されていない(入力ドロップアウトを除く)。

ImageNet

・ImageNetは、約22,000カテゴリーに属する1500万枚以上の高解像度画像で構成されるデータセットである。2010年から、Pascal Visual Object Challengeの一環として、ImageNet Large-Scale Visual Recognition Challenge (ILSVRC)と呼ばれる年次競技会が開催されている。このチャレンジでは、各1000カテゴリーにおよそ1000枚の画像が含まれるImageNetのサブセットが使用される。カテゴリー数が非常に多いため、一般に2つのエラー率、トップ1エラー率とトップ5エラー率が報告される。トップ5エラー率は、テスト画像の正しいラベルがモデルによって最も可能性が高いと考えられる5つのラベルの中にない割合である。図6は、いくつかのテスト画像に対するモデルの予測を示している。


・ILSVRC-2010は、テストセットのラベルが利用可能なILSVRCの唯一のバージョンであるため、実験の大部分はこのデータセットで実施された。表5は、異なる方法の性能を比較している。畳み込みネットワークとドロップアウトを使用したものは、他の方法よりも大きなマージンで優れている。アーキテクチャと実装の詳細は、Krizhevsky et al. (2012)で詳細に記述されている。畳み込みネットとドロップアウトを基にしたモデルは、ILSVRC-2012競技を優勝した。

・テストセットのラベルが利用可能でないため、最終提出のテストセットの結果を報告し、モデルの異なるバリエーションに対する検証セットの結果を含める。表6は、競技からの結果を示している。標準的な視覚特徴に基づく最良の方法が約26%のトップ5エラー率を達成する一方で、畳み込みネットとドロップアウトを使用したものは約16%のテストエラーを達成し、これは驚異的な差である。図6は、モデルによる予測の例をいくつか示している。モデルは、最良の推測が正しくない場合でも、非常に妥当な予測を行っていることがわかる。

Results on TIMIT

音声認識タスクにドロップアウトを適用した。使用したTIMITデータセットは、アメリカ英語の8つの主要方言をカバーする680人の話者からの、制御されたノイズフリー環境で読まれた10の音声学的に豊かな文から成る録音を含む。ドロップアウトニューラルネットワークは、21のログフィルタバンクフレームのウィンドウを訓練し、中央のフレームのラベルを予測するために訓練された。話者依存の操作は行われなかった。
・6層ネットは電話誤差率23.4%を達成し、ドロップアウトを使用するとそれが21.8%に改善された。事前学習された重みから始めてドロップアウトネットを訓練した場合、RBMのスタックで事前学習された4層ネットは電話誤差率22.7%を達成し、ドロップアウトを使用するとこれが19.7%に減少した。同様に、8層ネットでは誤差が20.5%から19.7%に減少した。

Results on a Text Data Set

テキストドメインでのドロップアウトの有用性をテストするために、ドキュメントクラス分類器を訓練するためにドロップアウトネットワークを使用した。使用したのは、Reutersからの800,000以上のニュース記事のコレクションであるReuters-RCV1データセットのサブセットである。これらの記事は様々なトピックをカバーしている。タスクは、ドキュメントのバッグ・オブ・ワーズ表現を取り、50の互いに排他的なトピックに分類することである。ドロップアウトを使用しない最良のニューラルネットは誤差率31.05%を得たが、ドロップアウトを追加することで誤差率が29.62%に減少した。視覚と音声データセットに対する改善と比較して、改善ははるかに小さかった。

 

Comparison with Bayesian Neural Networks

ドロップアウトは、共有された重みを持つ指数関数的に多くのモデルの等加重平均を行う方法と見なすことができる。一方、ベイジアンニューラルネットワークは、ニューラルネットワークの構造とパラメータの空間にわたるモデル平均を適切に行う方法である。ドロップアウトでは各モデルが等しく重み付けされるが、ベイジアンニューラルネットワークでは、事前知識とモデルがデータにどれだけ適合しているかを考慮して各モデルを重み付けする。これはより正確なアプローチである。ベイジアンニューラルネットは、医療診断、遺伝学、薬物発見、その他の計算生物学アプリケーションなど、データが不足しているドメインでの問題を解決するのに非常に有用である。しかし、ベイジアンニューラルネットを訓練し、非常に大きなネットワークサイズにスケールするのは困難である。加えて、テスト時に多くの大きなネットから予測を得ることはコストがかかる。一方、ドロップアウトニューラルネットは、訓練とテスト時の使用がはるかに迅速である。このセクションでは、ベイジアンニューラルネットドロップアウトニューラルネットを、ベイジアンニューラルネットワークがよく機能することが知られている小規模なデータセットで比較した実験を報告する。目的は、ドロップアウトベイジアンニューラルネットに比べてどれだけ損失があるかを分析することである。
・使用したデータセットは遺伝学のドメインから来ており、RNA特徴に基づいて代替スプライシングの発生を予測するタスクである。評価指標はCode Qualityで、目標と予測された確率分布間の負のKLダイバージェンスの尺度である(高い方が良い)。表8は、このデータセットにおける異なるモデルの性能をまとめている。訓練セットのサイズが小さいため、過学習を防ぐことがこのデータセットの課題である。過学習を防ぐ一つの方法は、PCAを使用して入力次元を削減することである。その後、SVMやロジスティック回帰などの標準的な技術を使用できる。しかし、ドロップアウトを使用することで、次元削減を行わずに過学習を防ぐことができた。ドロップアウトネットは、ベイジアンネットワークの数十ユニットに比べて非常に大きい(数千の隠れユニット)ことが示されている。これはドロップアウトが強力な正則化効果を持つことを示してい

 Comparison with Standard Regularizers 

ニューラルネットワークにおける過学習を防ぐために、いくつかの正則化方法が提案されている。これにはL2重み減衰(一般的にはティホノフ正則化(Tikhonov, 1943))、ラッソ(Tibshirani, 1996)、KLスパース性、最大ノルム正則化が含まれる。ドロップアウトは、ニューラルネットワーク正則化する別の方法と見なすことができる。このセクションでは、MNISTデータセットを使用して、ドロップアウトをこれらの正則化方法のいくつかと比較する。
・同じネットワークアーキテクチャ(784-1024-1024-2048-10)にReLUを用いて、異なる正則化を使用して確率的勾配降下法で訓練された。表9は結果を示している。各種正則化に関連する異なるハイパーパラメータ(減衰定数、目標スパース性、ドロップアウト率、最大ノルムの上限)の値は、検証セットを使用して得られた。ドロップアウトを最大ノルム正則化と組み合わせると、最も低い汎化誤差が得られることがわかった。

Salient Features

ドロップアウトニューラルネットワークに与える影響を詳細に検討する。

 Effect on Features

・標準的なニューラルネットワークでは、各パラメータが受け取る導関数は、最終的な損失関数をどのように減少させるべきかを指示するが、これは他のすべてのユニットが何をしているかに基づいている。そのため、ユニットは他のユニットの間違いを修正する方法で変化するかもしれない。これにより、複雑な共適応が生じる。これは、これらの共適応が未知のデータに一般化しないため、過学習につながる。我々は、各隠れユニットについて、ドロップアウトが他の隠れユニットの存在を信頼できないものにすることで共適応を防ぐと仮定する。したがって、隠れユニットは自身の間違いを修正するために他の特定のユニットに依存することはできない。それは、他の隠れユニットによって提供される様々な異なるコンテキストでうまく機能しなければならない。この効果を直接観察するために、ドロップアウトの有無に関わらず、視覚タスクで訓練されたニューラルネットワークによって学習された最初のレベルの特徴を見る。
・図7aは、ドロップアウトなしで256の修正線形ユニットを持つ単一の隠れ層を持つオートエンコーダーがMNISTで学習した特徴を示している。図7bは、隠れ層でp=0.5のドロップアウトを使用した同一のオートエンコーダーが学習した特徴を示している。両方のオートエンコーダーは類似のテスト再構築誤差を持っていた。しかし、図7aに示された特徴が良い再構築を生み出すために共適応していることが明らかである。各隠れユニット自体は意味のある特徴を検出しているようには見えない。一方、図7bでは、隠れユニットは画像の異なる部分にあるエッジ、ストローク、スポットを検出しているように見える。これは、ドロップアウトが共適応を分断することを示しており、これが一般化誤差を低減させる主な理由である可能性が高い。

 Effect on Sparsity

ドロップアウトを行うことの副作用として、隠れユニットの活性化がスパースになることがわかった。これは、スパース性を誘導する正則化項が存在しない場合でも同様である。したがって、ドロップアウトは自動的にスパースな表現を導く。この効果を観察するために、前セクションで訓練されたオートエンコーダーを取り、テストセットから無作為に取ったミニバッチ上での隠れユニットの活性化のスパース性を見る。図8aと図8bは、2つのモデルのスパース性を比較している。良いスパースモデルでは、任意のデータケースに対して高い活性化を持つユニットが少数であるべきである。さらに、データケース全体での任意のユニットの平均活性化も低いべきである。これら両方の特性を評価するために、各モデルについて2つのヒストグラムをプロットする。各モデルの左側のヒストグラムは、ミニバッチ全体での隠れユニットの平均活性化の分布を示している。右側のヒストグラムは、隠れユニットの活性化の分布を示している。
・活性化のヒストグラムを比較すると、図8bにおいては、図8aと比較して高い活性化を持つ隠れユニットが少ないことが、ドロップアウトを使用しないネットのためのゼロから遠い顕著な質量によって見ることができる。ドロップアウトネットの平均活性化も小さい。ドロップアウトなしのオートエンコーダーの隠れユニットの全体的な平均活性化は約2.0に近いが、ドロップアウトを使用すると約0.7に減少する。

ドロップアウトには、ネットワーク内でユニットを保持する確率 p という調整可能なハイパーパラメータがある。このセクションでは、このハイパーパラメータを変化させたときの効果を探る。比較は2つの状況で行われる。隠れユニットの数を一定に保つ。
ドロップアウト後に保持されると予想される隠れユニットの数が一定になるように、隠れユニットの数を変更する。

・最初のケースでは、異なる量のドロップアウトを使用して同じネットワークアーキテクチャを訓練する。784-2048-2048-2048-10のアーキテクチャを使用し、入力ドロップアウトは使用しない。図9aは、p の関数として得られたテストエラーを示している。アーキテクチャを一定に保つ場合、小さい p は訓練中に非常に少数のユニットがオンになることを意味する。これがアンダーフィッティングにつながったことが見て取れる、なぜなら訓練エラーも高いからである。p が増加するにつれてエラーが減少し、0.4≤p≤0.8 の間でフラットになり、p が1に近づくにつれて再び増加することがわかる。

・もう一つの興味深い設定は、pn が一定に保持される第二のケースであり、ここで 
n は特定の層の隠れユニットの数である。これは、小さい p を持つネットワークは多くの隠れユニットを持つことを意味する。したがって、ドロップアウトを適用した後、異なるアーキテクチャ間で存在するユニットの予想数が同じになる。しかし、テストネットワークは異なるサイズになる。実験では、最初の2つの隠れ層に対して pn=256、最後の隠れ層に対して pn=512 を設定した。図9bは、p の関数として得られたテストエラーを示している。小さい p の値に対するエラーの大きさが図9aと比べて大幅に減少していることが注目される(p=0.1 では2.7%から1.7%に落ちた)。pn のこの選択に対して、
p が約0.6に近い値が最も良い性能を発揮するようであるが、通常のデフォルト値である0.5も最適に近い。

Effect of Data Set Size 

・良い正則化手法の一つの試験は、小さなデータセットで訓練された大量のパラメータを持つモデルから良い一般化誤差を得られるようにすることである。このセクションでは、フィードフォワードネットワークでドロップアウトを使用した場合のデータセットサイズを変更する効果を探る。標準的な方法で訓練された巨大なニューラルネットワークは、小さなデータセットで大量に過学習する。ドロップアウトが助けになるかどうかを見るために、MNISTで分類実験を行い、ネットワークに与えるデータの量を変える。
・実験の結果は図10に示されている。ネットワークには、MNIST訓練セットから無作為に選ばれた100、500、1K、5K、10K、50Kのサイズのデータセットが与えられた。すべてのデータセットに対して同じネットワークアーキテクチャ(784-1024-1024-2048-10)が使用された。すべての隠れ層でp=0.5、入力層でp=0.8のドロップアウトが行われた。極めて小さいデータセット(100、500)では、ドロップアウトが改善をもたらさないことが観察される。モデルはドロップアウトから来る全てのノイズにもかかわらず、訓練データに過学習するのに十分なパラメータを持っている。データセットのサイズが増加するにつれて、ドロップアウトからの利得が増加し、ある点まで上がった後で減少する。これは、与えられたアーキテクチャドロップアウト率に対して、ノイズにもかかわらず記憶されないほど十分に大きく、しかし過学習が問題にならないほど大きくもない、ある量のデータに対応する「最適な点」が存在することを示唆している。

 

Monte-Carlo Model Averaging vs. Weight Scaling

・効率的なテスト時処理は、訓練済みニューラルネットワークの重みをスケールダウンすることで、近似モデルの組み合わせを行う方法である。一方、各テストケースに対してドロップアウトを用いて複数のニューラルネットをサンプリングし、その予測を平均化する方法は、より正確だがコストが高い。

・k個のニューラルネットワークの予測を平均化することで分類を行う実験では、k=50で近似方法と同等の性能を示すことがわかった。その後、モンテカルロ法は近似法よりも若干優れているが、その差は標準偏差の範囲内である。これは重みスケーリング法が真のモデル平均のかなり良い近似であることを示唆している。

 

Dropout Restricted Boltzmann Machines

フィードフォワードニューラルネットワーク以外にも、ドロップアウトは制限ボルツマンマシン(RBM)に適用することができる。このセクションでは、このモデルを正式に説明し、その主要な特性を示すいくつかの結果を示す。
モデルの説明:可視ユニット  と隠れユニット   を持つRBMを考える。以下の確率分布を定義する:

ドロップアウトRBMは、二値ランダム変数のベクトルr∈{0,1} F  で拡張されたRBMである。各ランダム変数 rj  は、他と独立して確率 p で値1を取る。rj  が値1を取る場合、隠れユニット hj  はモデルに保持され、そうでない場合はモデルからドロップされる。ドロップアウトRBMによって定義される結合分布は以下のように表現できる:

 

r に条件付けされた {v,h} 上の分布は、RBMが課す分布と同じであるが、rj =0 の単位は 
h から除外される。したがって、ドロップアウトRBMモデルは、共有された重みを持つ指数関数的に多くのRBMの混合と見なすことができ、それぞれが h の異なるサブセットを使用している。

Learning Dropout RBMs

・制限ボルツマンマシン(RBM)用に開発された学習アルゴリズム、例えばコントラスティブ・ダイバージェンス(Hinton et al., 2006)は、ドロップアウトRBMの学習に直接適用することができる。唯一の違いは、最初に r がサンプリングされ、保持される隠れユニットのみが訓練に使用されることである。ドロップアウトニューラルネットワークと同様に、各訓練ケースごとに異なる r が各ミニバッチでサンプリングされる。実験では、ドロップアウトRBMの訓練にCD-1を使用する。

Effect on Features

フィードフォワードネットワークにおけるドロップアウトは、共適応を減少させることで特徴の品質を向上させた。このセクションでは、この効果がドロップアウトRBMにも転移するかを探る。図12aは、256個の隠れユニットを持つ二値RBMによって学習された特徴を示し、図12bは同じ数の隠れユニットを持つドロップアウトRBMによって学習された特徴を示す。ドロップアウトRBMによって学習された特徴は、標準RBMの鋭く定義されたストロークのような特徴と比較して、より粗い特徴を捉えているように質的に異なるように見える。ドロップアウトRBMには、標準RBMに比べて死んだユニットが非常に少ないように見える。

Effect on Sparsity

・次に、ドロップアウトRBMの訓練が隠れユニットの活性化のスパース性にどのような効果を持つかを調査する。図13aは、RBMの訓練後のテストミニバッチでの隠れユニット活性化とその平均のヒストグラムを示し、図13bはドロップアウトRBMについて同じものを示す。ヒストグラムは、追加のスパース性を誘発する正則化項が存在しない場合でも、ドロップアウトRBMが標準RBMよりもはるかにスパースな表現を学習することを明確に示している。

 Marginalizing Dropout

ドロップアウトは、ニューラルネットワーク内の隠れユニットの状態にノイズを加える方法と見なすことができる。このセクションでは、このノイズを周辺化することで生じるモデルのクラスを探る。これらのモデルは、ドロップアウト決定論的バージョンと見なすことができる。標準の(「モンテカルロ」)ドロップアウトとは対照的に、これらのモデルはランダムビットを必要とせず、周辺化された損失関数の勾配を得ることが可能である。このセクションでは、これらのモデルを簡単に探る。
・テスト時の特徴削除に対して堅牢なモデルを学習しようとする決定論アルゴリズムが提案されている(Globerson and Roweis, 2006)。デノイジングオートエンコーダの文脈での周辺化が以前に探られている(Chen et al., 2012)。線形回帰の文脈でのドロップアウトノイズの周辺化については、Srivastava (2013)で議論されている。Wang and Manning (2013)は、トレーニングをスピードアップするためにドロップアウトの周辺化を探った。van der Maaten et al. (2013)は、異なる入力ノイズ分布とこのノイズの周辺化によって得られる正則化項を調査した。Wager et al. (2013)は、ドロップアウトが適応型正則化器として見ることができる方法を説明している。

 

Linear Regression

最初に、線形回帰の古典的な問題にドロップアウトを適用する非常に単純なケースを探る。をNデータポイントのデータ行列、  を目標ベクトルとする。線形回帰は、を最小化する   を見つけようとする:

入力 X がドロップアウトされ、任意の入力次元が確率 p で保持される場合、入力は 
R∗X として表現できる。ここで、Rはベルヌーイ(p)に従いである。
ノイズを周辺化すると、目的関数は次のようになる:

これは次に簡約される:


ここで、。したがって、線形回帰におけるドロップアウトは、期待値において、特定の形の Γ を持つリッジ回帰と同等である。この形の Γ は、データの i 次元の標準偏差によって重みコストをスケールする。特定のデータ次元が大きく変動する場合、正則化器はその重みをより強く圧縮しようとする。

 

Logistic Regression and Deep Networks

ロジスティック回帰や深層ニューラルネットでは、周辺化されたモデルの閉形式を得ることは困難である。しかし、Wang and Manning (2013)は、ロジスティック回帰にドロップアウトを適用した文脈で、対応する周辺化モデルを近似的に訓練することができることを示した。妥当な仮定の下で、ロジスティックユニットへの入力と周辺化モデルの勾配の分布はガウス分布である。その平均と分散は効率的に計算することができる。この近似的な周辺化は、訓練時間と一般化性能の点でモンテカルロドロップアウトを上回る。
しかし、この技術に関わる仮定は、より多くの層が追加されるにつれて次第に弱くなる。したがって、結果は深いネットワークに直接適用できない。

 

Multiplicative Gaussian Noise

ドロップアウトは、隠れ活性化に確率 p で値1を取り、それ以外の場合は0を取るベルヌーイ分布のランダム変数を乗算することを含む。このアイデアは、活性化に他の分布から抽出されたランダム変数を乗算することによって一般化することができる。最近、N(1, 1)から抽出されたランダム変数を乗算することが、ベルヌーイノイズを使用するのと同じくらい、あるいはそれ以上にうまく機能することが発見された。この新しい形式のドロップアウトは、ユニットの活性化に等しい標準偏差を持つゼロ平均のガウス分布ランダム変数を加えることに相当する。つまり、各隠れ活性化 hi  はhi +hi r に摂動される。ここで r∼N(0,1)、または同等に h i r′ここでr′ ~N(1,1)。これを r′ ∼N(1,σ^2 ) に一般化することができる。ここで σ は、標準の(ベルヌーイ)ドロップアウトの 
p のように、調整する追加のハイパーパラメータとなる。活性化の期待値は変わらないため、テスト時に重みスケーリングは必要ない。

・本論文では、訓練時に確率 p でユニットを保持し、テスト時にそれらを p の係数でスケールダウンする方法としてドロップアウトを説明した。同じ効果を達成する別の方法は、訓練時に保持された活性化を 1/p でスケールアップし、テスト時に重みを変更しないことである。これらの方法は、学習率と各層の重みの初期化を適切にスケーリングすることで等価である。

・したがって、ドロップアウトは hi  にベルヌーイランダム変数 rb  を乗算することと見なすことができる。ここで rb  は確率 p で値1/p を取り、それ以外の場合は0を取る。乗法的ガウスノイズの場合、σ^2 =(1−p)/p を設定すると、hi  に乗算されるランダム変数 rg  が得られる。ここでE[rg] ]=1 および Var[rg]]=(1−p)/p である。したがって、両方の形式のドロップアウトは、乗算されるランダム変数が同じ平均と分散を持つように設定することができる。しかし、これらの一次および二次モーメントが与えられた場合、
rg  は最高のエントロピーを持ち、rb  は最低のエントロピーを持つ。これらの両極端はうまく機能するが、表10に示された予備的な実験結果は、高エントロピーのケースがわずかに優れている可能性があることを示唆している。各層におけるガウスモデルの σ の値は、ベルヌーイモデルの対応する層の p を使用して (1−p)/p  に設定された。

 Conclusion

ドロップアウトは、過学習を軽減することでニューラルネットワークの性能を向上させる技術である。標準的なバックプロパゲーション学習では、訓練データには有効だが未知のデータには一般化しない脆弱な共適応が形成される。ランダムなドロップアウトは、特定の隠れユニットの存在を信頼できないものにすることで、これらの共適応を分断する。この技術は、物体分類、数字認識、音声認識、文書分類、計算生物学データの分析を含む幅広いアプリケーションドメインニューラルネットの性能を向上させることが見出された。これは、ドロップアウトが一般的な技術であり、特定のドメインに特化していないことを示唆している。ドロップアウトを使用する方法は、SVHN、ImageNet、CIFAR-100、MNISTで最先端の結果を達成している。ドロップアウトは、他のデータセットでも標準的なニューラルネットの性能を大幅に向上させた。
・このアイデアは、制限ボルツマンマシン(RBM)やその他のグラフィカルモデルに拡張することができる。ドロップアウトの中心的な考え方は、容易に過学習する大きなモデルを取り、それから小さなサブモデルを繰り返しサンプリングして訓練することである。RBMはこの枠組みに容易に適合する。ドロップアウトRBMを開発し、それらが望ましい特性を持つことを実証的に示した。ドロップアウトの欠点の一つは、訓練時間が増加することである。ドロップアウトネットワークは、同じアーキテクチャの標準的なニューラルネットワークと比較して、訓練に2〜3倍長くかかることが多い。この増加の主な原因は、パラメータ更新が非常にノイズが多いことである。各訓練ケースは、事実上異なるランダムアーキテクチャを訓練しようとしている。したがって、計算されている勾配は、テスト時に使用される最終アーキテクチャの勾配ではない。そのため、訓練に時間がかかるのは驚くべきことではない。しかし、この確率性が過学習を防ぐ可能性が高い。これは、過学習と訓練時間のトレードオフを生み出す。より多くの訓練時間をかけることで、高いドロップアウトを使用し、過学習を少なくすることができる。しかし、確率性なしでドロップアウトのいくつかの利点を得る方法の一つは、ノイズを周辺化して、期待値でドロップアウト手順と同じことをする正則化器を得ることである。線形回帰の場合、この正則化器はL2正則化の修正形である。より複雑なモデルでは、同等の正則化器を得る方法は明らかではない。ドロップアウトの高速化は、将来の研究の興味深い方向性である。

 

おまけ

 

論文要約:PhaseNet: a deep-neural-network-based seismic arrival-time picking method

PhaseNet: a deep-neural-network-based seismic arrival-time picking method

Abstract

 研究目的

地震モニタリングの基本である地震相の手動での選択が、地震センサーの増加に伴いますます困難になっている問題を解決するため、深層ニューラルネットワークを用いた地震到達時間の推定方法「PhaseNet」を開発した。

方法

 PhaseNetは、3成分の地震波形を入力とし、P波到着、S波到着、ノイズの確率分布を出力する。確率分布のピークがP波とS波の正確な到着時間を提供するようにPhaseNetを設計した。PhaseNetは、北カリフォルニア地震データセンターから提供されたアナリストによるP波とS波の到着時間のラベル付けされた大量のデータセットで訓練された。

結果:

既知の地震の波形に適用した場合、PhaseNetは既存の方法よりもはるかに高い選択精度と再現率を達成し、現在利用可能なものよりもS波観測の数を大幅に増加させる可能性があることを示した。

結論:

これにより、地震の位置情報の改善と、S波速度モデルの改善が可能になる。


INTRODUCTION

- 地震の検出と位置特定は地震学の基本であり、地震カタログの品質は到着時間測定の数と精度に大きく依存する。しかし、地震計の設置が急速に進む中で、データ処理の量が増え、解析が困難となっている。
- S波の到着時間は、P波だけに基づく地震位置の深度-起源のトレードオフを減らすため、また強い地震動予測においてS波構造が重要であるため、特に有用である。
- 自動フェーズピッキングには数十年の研究が費やされてきたが、自動フェーズピッキングアルゴリズムの精度は経験豊富なアナリストには及ばない。これは、地震波形が複数の要因により高度に複雑であるためである。
- 本論文では、地震フェーズピッキングのための深層ニューラルネットワークアルゴリズム、PhaseNetを紹介する。PhaseNetは、手動で定義された特徴を使用する代わりに、深層ニューラルネットワークがラベル付けされたデータから特徴を学習する。
- PhaseNetは、P波とS波の到着時間を予測するために設計されたP波とS波の確率分布のピークを出力するように訓練されている。PhaseNetは、P波とS波のピックの高い精度と再現率を提供し、伝統的なSTA/LTA方法と比較して大幅な改善を達成している。


DATA

- 地震学のアーカイブには、手動で選択されたP波とS波の到着が大量に含まれており、これは深層学習に理想的なラベル付きデータの豊富なトレーニングセットを提供する(図1)。


- 本研究では、北カリフォルニア地震データセンターカタログ(NCEDC 2014)に基づくデジタル地震波形データを収集しました。このデータセットの複雑さは自動フェーズピッキングにとっては難題ですが、より包括的なパフォーマンス評価を提供する。
- トレーニングデータには最小限の前処理とした。PhaseNetの入力としてP波とS波の到着時間を含む30秒間の時間窓をランダムに選択する。すべてのデータは100Hzでサンプリングされ、30秒の入力波形は各成分について3001のデータポイントを持つ。
- データセット内の手動で選択された時間点は真のP/S到着ではないかもしれないが、手動選択の周囲にガウス分布の形状のマスクを適用することで、地震波の到着時間を中心に予測する。
- マスクはP波とS波の選択に対するノイズの情報量を増加させ、収束を加速させる。ノイズはP波またはS波の最初の到着でないすべてのデータポイントを含む。


METHOD

- PhaseNetのアーキテクチャは、1-D時系列データを扱うためにU-Netから改変されている。U-netは、画像内の特性を局所化することを目指す生物医学画像処理で使用される深層ニューラルネットワークアプローチである。
- 入力は既知の地震の三成分地震計で、出力はP波、S波、ノイズの確率分布である。実験では、入力と出力のシーケンスはそれぞれの成分について3001のデータポイントを含む。
- 入力地震データは4つのダウンサンプリングステージと4つのアップサンプリングステージを経る。各ステージ内で、1-Dの畳み込みとReLU活性化を適用する。
- ダウンサンプリングプロセスは、生の地震データから有用な情報を抽出し、数個のニューロンに縮小するように設計されている。アップサンプリングプロセスは、この情報を各時間点でのP波、S波、ノイズの確率分布に拡大・変換する。
- 各深度でのスキップ接続は、左側の出力を深層を経ずに右側の層に直接連結する。これにより、訓練中の収束性が向上する。
- 1-Dの畳み込みサイズは7データポイントに設定されている。ダウンサンプリングのストライドステップは4データポイントに設定されているため、各ストライド後のチャネル長は元の次元の4分の1に縮小される。
- 最後の層での確率を設定するために指数関数が使用され、損失関数は真の確率分布と予測分布の間のクロスエントロピーを用いて定義される。P波とS波の到着時間は、出力確率分布のピークから抽出される。


EXPERIMENTS

- 評価指標として精度、再現率、F1スコア、時間残差の平均(μ)と標準偏差(σ)を選択し、PhaseNetの性能をテストした。
- 真陽性、偽陽性偽陰性の数を用いて精度、再現率、F1スコアを定義した。
- ピーク確率が0.5以上のものを陽性とし、到着時間残差が0.1秒未満のものを真陽性とした。
- F1スコアは精度と再現率のバランスを示す指標であり、閾値の選択に対する感度が低く、アルゴリズムの性能評価がより正確になる。
- PhaseNetの結果をオープンソースの"AR picker"と比較し、特にS波について大幅な改善が見られた。
- PhaseNetは異なる受振器のタイプに対しても頑健な性能を示し、SNRが改善するにつれて評価指標が増加した。
- PhaseNetはP波とS波の到着を正確に予測し、予測分布のピークがアナリストがラベル付けしたP波とS波のピークと正確に一致した。
- PhaseNetはP波とS波の確率分布を予測し、地震検出のために連続データに適用可能である。

 


DISCUSSION

- PhaseNetは地震波形内でP波とS波の到着を効果的に検出・選択できることを示しました。F1スコアは精度と再現率の両方でアルゴリズムの性能をバランス良く評価します。PhaseNetはP波の到着に対して0.896、S波の到着に対して0.801のF1スコアを達成し、これはARピッカー(P波の到着に対して0.558、S波の到着に対して0.165)よりも大幅に優れている。
- PhaseNetは、P波とS波を区別するために、明示的にスペクトラム解析を使用しない点で、Ross & Ben-Zion(2014)が提案した方法とは異なります。PhaseNetは自動的に特徴を学習し、それには暗黙的にスペクトラムが含まれる可能性がある。
- STA/LTA法は波形振幅の急激な変化を検出することに基づいていますが、S波の相は常にP波の余韻によって隠され、STA/LTA比を選択するためのSピックを劣化させる。PhaseNetはここで優位性を持ち、振幅以外の特徴を学習してS波を検出し、P波とS波を区別している。
- PhaseNetは、入力波形と同じ長さの確率シーケンスを予測するため、一つの時間窓内の地震の数に制約されません。図13に示すように、PhaseNetは60秒の波形をP波とS波の到着のいくつかのスパイクを持つ確率分布に変換します。


- 正確な相到着時間は、絶対的な地震位置を取得し、地震速度モデルを開発するために使用できる。PhaseNetは、より良いS波速度モデルを開発し、地震位置を改善するために有用な、正確なS波の到着を取得する改善された方法を提供する。


CONCLUSION

- ディープラーニング手法は急速に進化しており、その改善には大規模なラベル付きデータセットの存在が重要である。
- 地震学では、何十年にもわたる到着時間とそれに伴う波形という形で大規模なデータセットが手元にある。
- 人間の分析者を上回る能力を持つ「超人的」なニューラルネットワーク閾値に達しているかもしれない。
- 本研究では、北カリフォルニア地震ネットワークカタログから手動で選択したP波とS波の到着時間を使用して訓練データセットを作成し、P波、S波、ノイズの確率分布を予測するために3成分波形データを使用する深層ニューラルネットワークアルゴリズム「PhaseNet」を開発した。
- さらなるテストが必要だが、地震監視のための急速に増え続ける波形データセットから可能な限り多くの情報を抽出し続けるために、正確なP波とS波の到着時間の増加が役立つであろう。

論文要約:Going Deeper with Convolutions (GoogLeNet)

Going Deeper with Convolutions

arxiv.org

図表は全て元論文から引用

Abstract

研究目的

新たな深層畳み込みニューラルネットワークアーキテクチャ「Inception」を提案し、ImageNet Large-Scale Visual Recognition Challenge 2014(ILSVRC14)における分類と検出の新たな基準を設定すること。

 方法論

ネットワーク内の計算リソースの利用を改善するための設計を行い、ネットワークの深さと幅を増やしながら計算予算を一定に保つ。品質を最適化するために、ヘッブの法則と多尺度処理の直感に基づいたアーキテクチャの決定を行った。

 結果

LSVRC14への提出に使用した特定の実装は「GoogLeNet」と呼ばれ、22層の深いネットワークで、その品質は分類と検出の文脈で評価された。

結論:

Inceptionアーキテクチャは、計算リソースの利用を改善し、ネットワークの深さと幅を増やしながら計算予算を一定に保つことが可能であることを示した。また、GoogLeNetは、分類と検出のタスクにおいて高い品質を達成した。


Introduction

- 過去3年間で、特に深層学習、具体的には畳み込みネットワークの進歩により、画像認識と物体検出の品質が劇的に向上している。
- この進歩は、より強力なハードウェア、大規模なデータセット、大きなモデルの結果だけでなく、新しいアイデアアルゴリズム、改良されたネットワークアーキテクチャの結果である。
- 例えば、ILSVRC 2014のコンペティションでは、新しいデータソースは使用されず、検出目的で同じコンペティションの分類データセットが使用された。
- 著者らのGoogLeNetは、ILSVRC 2014への提出では、2年前のKrizhevskyらの優勝アーキテクチャよりも12倍少ないパラメータを使用しながら、はるかに正確であった。
- 物体検出の最大の利点は、深層ネットワークの単独使用や大きなモデルからではなく、深層アーキテクチャと古典的なコンピュータビジョン、例えばGirshickらのR-CNNアルゴリズムシナジーから来ている。
- モバイルや組み込みコンピューティングの進行に伴い、アルゴリズムの効率性、特に電力とメモリ使用が重要になってきている。
- この論文では、コンピュータビジョンのための効率的な深層ニューラルネットワークアーキテクチャ、Inceptionに焦点を当てる。このアーキテクチャは、ILSVRC 2014の分類と検出の課題で、現在の最先端技術を大幅に上回る結果を実証している。

- LeNet-5 [10]から始まり、畳み込みニューラルネットワーク(CNN)は一般的に標準的な構造を持っています。これは、畳み込み層(オプションでコントラスト正規化と最大プーリングを続ける)が一つ以上の全結合層に続くものです。この基本設計のバリエーションは画像分類文献に広く見られ、MNIST、CIFAR、特にImageNet分類チャレンジ[9,21]で最高の結果を出している。
- より大きなデータセット(例:Imagenet)では、最近の傾向として、層の数[12]と層のサイズ[21,14]を増やし、過学習の問題に対処するためにドロップアウト[7]を使用することが多い。
- 最大プーリング層が正確な空間情報の損失を引き起こすという懸念にもかかわらず、同じ畳み込みネットワークのアーキテクチャは、ローカライゼーション[9,14]、オブジェクト検出[6,14,18,5]、人間の姿勢推定[19]にも成功裏に適用されています。
- Linら[12]が提案したNetwork-in-Networkは、ニューラルネットワークの表現力を高めるためのアプローチで、畳み込み層に適用すると、追加の1×1畳み込み層として見ることができます。これにより、現在のCNNパイプラインに容易に統合することが可能である。
- 現在の主流のオブジェクト検出手法は、Girshickら[6]が提案したRegions with Convolutional Neural Networks (R-CNN)です。R-CNNは、全体の検出問題を2つのサブ問題に分解します。まず、色やスーパーピクセルの一貫性などの低レベルの手がかりを利用して、カテゴリに関係なく潜在的なオブジェクトの提案を行い、次にCNN分類器を使用して、それらの位置でのオブジェクトカテゴリを識別する。


Motivation and High Level Considerations

- ディープニューラルネットワークのパフォーマンスを向上させる最も直接的な方法は、そのサイズを増やすことである。これには、ネットワークの深さ(レベルの数)と幅(各レベルのユニット数)を増やすことが含まれる。これは、大量のラベル付きトレーニングデータが利用可能な場合、特に高品質なモデルを訓練するための簡単で安全な方法である。
- しかし、この単純な解決策には2つの大きな欠点がある。大きなサイズは通常、パラメータの数が多くなることを意味し、拡大したネットワークは特にトレーニングセットのラベル付き例の数が限られている場合、過学習になりやすい。また、ネットワークサイズを一様に増加させると、計算リソースの使用が劇的に増加する。
- これらの問題を解決する基本的な方法は、完全に接続されたアーキテクチャから疎結合アーキテクチャへと移行することである。しかし、現在の計算インフラストラクチャは、非一様な疎なデータ構造に対する数値計算に非常に非効率的である。
- Inceptionアーキテクチャは、視覚ネットワークのための疎な構造を近似しようとする洗練されたネットワークトポロジー構築アルゴリズムの仮説的な出力を評価するための最初の著者らのケーススタディとして始まった。しかし、提案されたアーキテクチャがコンピュータビジョンの成功につながったとしても、その品質がその構築に至った指導原則に帰せられるかどうかはまだ疑問である。


Architectural Details

・Inceptionアーキテクチャの主な考え方は、畳み込みビジョンネットワーク内の最適な局所的スパース構造を、既存の密集したコンポーネントで近似し、カバーする方法を見つけ出すことに基づいている。
・並進不変性(画像内のオブジェクトが位置を変えても同じように認識される性質)を仮定すると、ネットワークは畳み込みブロックから構築されることになります。
・最適な局所構造を見つけ、空間的に繰り返す必要があります。Aroraらは、最後の層の相関統計を分析し、高い相関を持つユニットのグループにクラスタリングすることを提案している。
・これらのクラスタは次の層のユニットを形成し、前の層のユニットに接続されます。初期層では、相関ユニットが局所的な領域に集中する。

・次の層で1x1の畳み込みによってカバーできる多くのクラスタが単一の領域に集中することになりますが、より広がったクラスタも存在し、これらは大きなパッチを持つ畳み込みでカバーできる。
・Inceptionアーキテクチャは、1x1、3x3、5x5のフィルタサイズに限定され、その出力フィルタバンクが単一の出力ベクトルに連結され、次のステージの入力を形成することを意味します。また、プーリング操作の追加が、現在の畳み込みネットワークの成功に不可欠であることを示唆している。

・"Inceptionモジュール"が重ねられることで、より高位の層では抽象度の高い特徴が捉えられ、その結果、空間的集中度が減少し、3×3および5×5の畳み込みの比率を増加させるべきであると示唆される。
・5×5畳み込みを少数使用するだけでも、多くのフィルターを持つ畳み込み層上では非常にコストがかかり、プーリングユニットが加わると、ステージごとに出力数が増える問題が顕著になる。
・この問題への対策として、計算要求が過度に増大する場所で次元削減と射影を適切に適用することが提案される。これは、1×1畳み込みを利用して高価な3×3および5×5畳み込みの前に削減を行い、情報を効率的に圧縮するアプローチである。

・Inceptionネットワークは、特定のモジュールを重ねて構築され、解像度を下げるために最大プーリング層が時折使用される。
・トレーニング中のメモリ効率を考慮して、低層では従来の畳み込み方式を採用し、高層からInceptionモジュールを使用することが推奨されている。
・このアーキテクチャは、計算の複雑さを抑えつつ各ステージでのユニット数を増加させることが可能で、多数の入力フィルターを効率的に扱うことができる。
・視覚情報を異なるスケールで処理し、集約することで、異なるスケールからの特徴を同時に抽象化できる設計になっている。
・計算リソースの効率的な利用により、各ステージの幅とステージ数を増やすことができ、計算上の困難を避けることが可能です。また、計算コストを下げた劣るバージョンを作成することもできますが、これには慎重な設計が必要である。


GoogLeNet

- 著者らはILSVRC14コンペティションでチーム名としてGoogLeNetを選んだ。この名前は、Yann LeCunsの先駆的なLeNet 5ネットワークへの敬意である。また、GoogLeNetは、コンペティションへの提出に使用したInceptionアーキテクチャの特定のインカーネーションを指すためにも使用する。
- ネットワークは計算効率と実用性を念頭に置いて設計されており、限られた計算リソースを持つ個々のデバイスでも推論を実行できる。ネットワークはパラメータを持つ層だけを数えると22層、プーリングも含めると27層である。


- ネットワークの比較的大きな深さを考慮すると、すべての層を通じて勾配を効果的に逆伝播する能力が懸念された。中間層で生成される特徴が非常に識別的であることを示唆することで、この問題を解決した。
- このネットワークの補助分類器は、Inception(4a)および(4d)モジュールの出力の上に置かれた小さな畳み込みネットワークの形を取る。訓練中、これらの損失は割引重み(補助分類器の損失は0.3で重み付けされる)でネットワークの総損失に追加される。
- 補助分類器を含むサイドネットワークの正確な構造は次のとおり:

・5×5フィルタサイズとストライド3の平均プーリング層、

・1024ユニットとReLU活性化の全結合層、

・70%のドロップアウト比率のドロップアウト

・ソフトマックス損失を持つ線形層。


Training Methodology

- 著者らのネットワークは、DistBeliefという分散型機械学習システムを用いて、モデルとデータの並列性を適度に利用して訓練された。CPUベースの実装のみを使用しましたが、GoogLeNetネットワークは高性能GPUを数台使用して1週間以内に収束訓練が可能であると推定されている。主な制限はメモリ使用量である。
- 訓練には非同期確率的勾配降下法と0.9のモーメンタム、固定学習率スケジュール(8エポックごとに学習率を4%減少)を使用しました。Polyak平均法を用いて、推論時に使用する最終モデルを作成した。
- 画像のサンプリング方法は、競技会に向けて数ヶ月間で大幅に変更され、すでに収束したモデルは、ドロップアウトや学習率などのハイパーパラメータを変更しながら他のオプションで訓練された。
- さらに、一部のモデルは小さな相対的なクロップで主に訓練され、他のものは大きなクロップで訓練された。
- 競技会後に非常に効果的であることが確認された方法の一つに、画像のさまざまなサイズのパッチをサンプリングし、そのサイズは画像領域の8%から100%の間で均等に分布し、アスペクト比は3/4から4/3の間でランダムに選ばれるというものがあった。
- また、Andrew Howardによる光学的歪みは、ある程度過学習を防ぐのに役立つことがわかりました。さらに、相対的なリサイズのためのランダムな補間方法(バイリニア、エリア、最近傍、立方体、等確率)を比較的遅く、他のハイパーパラメータの変更と併せて使用し始めたため、その使用が最終結果にどの程度影響を与えたかは確定的には言えない。


ILSVRC 2014 Classification Challenge Setup and Results

- ILSVRC 2014の分類課題では、Imagenet階層の1000のリーフノードカテゴリの中から画像を分類するタスクが求められる。訓練用に約120万枚、検証用に5万枚、テスト用に10万枚の画像が用意されている。
- 各画像は1つの真実のカテゴリと関連付けられ、最高得点の分類器の予測に基づいてパフォーマンスが測定される。通常、トップ1の正確さ率とトップ5のエラー率の2つの数値が報告される。
- 著者らは外部データを使用せずにこのチャレンジに参加した。訓練技術に加えて、テスト中に一連の技術を採用して高いパフォーマンスを得た。
- 7つのGoogLeNetモデルを独立して訓練し、それらを用いてアンサンブル予測を行った。これらのモデルは同じ初期化と学習率ポリシーで訓練され、サンプリング方法と入力画像のランダムな順序だけが異なる。
- テスト中には、より積極的なクロッピング手法を採用した。具体的には、画像を4つのスケールにリサイズし、それぞれのリサイズされた画像の左、中央、右の正方形を取り出す。
- 最終的な予測を得るために、複数のクロップと個々の分類器全体でソフトマックス確率を平均化した。最終的な提出物は、検証データとテストデータの両方でトップ5エラーが6.67%となり、他の参加者の中で最も高いランクを獲得した。


ILSVRC 2014 Detection Challenge Setup and Results

- ILSVRC検出タスクは、200の可能なクラスの中から画像内のオブジェクトを囲むバウンディングボックスを作成することである。
- 検出されたオブジェクトは、グラウンドトゥルースのクラスと一致し、バウンディングボックスが少なくとも50%重なる(ジャカード指数を使用)場合に正しいとされる。
- 余分な検出は偽陽性としてカウントされ、ペナルティが課されます。
- 分類タスクとは異なり、各画像には回帰が含まれる可能性があり、これはInceptionアーキテクチャの強さのさらなる証拠を提供する。
- 同様の深さと幅を持つより高価なネットワークでも同様の結果が得られると予想されるが、著者らのアプローチは、よりスパースなアーキテクチャへの移行が実現可能で有用なアイデアであることを強く示している。
- これは、[2]の基礎に基づいて自動的な方法でよりスパースで洗練された構造を作成するための有望な未来の作業を示唆している。

- GoogLeNetの検出手法はR-CNNと似ているが、Inceptionモデルを領域分類器として使用し、Selective Searchとmulti-boxの予測を組み合わせて領域提案ステップを改善している。
- 偽陽性の数を減らすために、スーパーピクセルのサイズを2倍に増やし、Selective Searchアルゴリズムからの提案を半分にした。
- multi-boxからの200の領域提案を追加し、全体の提案数を60%に減らしながら、カバレッジを92%から93%に増やした。
- 提案数を減らしカバレッジを増やすことで、平均精度(mAP)が1%改善しました。
- 最後に、各領域を分類するために6つのConvNetsのアンサンブルを使用し、精度を40%から43.9%に向上させた。

- 2013年の結果と比較して、精度はほぼ2倍になった。トップチームはすべてConvolutional Networksを使用している。
- Table 5では、単一モデルのみを使用した結果を比較しています。トップパフォーマンスのモデルはDeep Insightで、3つのモデルのアンサンブルでわずか0.3ポイントしか改善しない一方、GoogLeNetはアンサンブルで大幅に強い結果を得ている。


Conclusions

- 著者らの結果は、利用可能な密な構造ブロックを用いて最適なスパース構造を近似することが、コンピュータビジョンのためのニューラルネットワークを改善する有効な方法であることを強く示唆している。
- この方法の主な利点は、浅くて幅の狭いネットワークと比較して、計算要件のわずかな増加で大幅な品質向上を達成できることである。
- また、著者らの検出作業は、コンテキストを利用せず、バウンディングボックスを実行しないにもかかわらず、競争力があったという事実も、Inceptionアーキテクチャの強さのさらなる証拠を提供している。

- 同様の深さと幅を持つはるかに高価なネットワークによって同等の品質の結果が達成されることが期待されるものの、著者らのアプローチは、スパースなアーキテクチャへの移行が実行可能で有用なアイデアであるという確かな証拠を提供している。

-よりスパースで洗練された構造を自動的な方法で作成することに向けた将来の有望な作業を示唆している。

論文要約:Deep Residual Learning for Image Recognition

Deep Residual Learning for Image Recognition

arxiv.org

図表は全て元論文から引用

Abstract

研究目的

より深いニューラルネットワークの訓練を容易にするための残差学習フレームワークを提案する。


方法

層を参照なしの関数学習ではなく、層の入力を参照にした残差関数学習として明示的に再定義する。

結果

これらの残差ネットワークは最適化が容易で、深度を大幅に増やすことで精度が向上することを示す。ImageNetデータセットでは、VGGネットよりも8倍深い152層の残差ネットを評価し、複雑さは低いままである。これらの残差ネットのアンサンブルは、ImageNetテストセットで3.57%のエラーを達成した。この結果は、ILSVRC 2015の分類タスクで1位を獲得した。

 結論

表現の深さは、多くの視覚認識タスクにとって中心的な重要性を持つ。極めて深い表現だけにより、COCOオブジェクト検出データセットで28%の相対的な改善を達成した。深い残差ネットは、著者たちがILSVRC&COCO 2015コンペティションに提出した基盤であり、ImageNet検出、ImageNetローカライゼーション、COCO検出、COCOセグメンテーションのタスクで1位を獲得した。

 

Introduction

- ディープ畳み込みニューラルネットワークは画像分類においてブレークスルーをもたらし、深いネットワークは低/中/高レベルの特徴と分類器を統合する。
- ネットワークの深さが重要であり、ImageNetデータセットにおける最先端の結果はすべて「非常に深い」モデルを利用している。
- ネットワークが深くなると、精度が飽和し、急速に低下するという劣化問題が明らかになった。これは過学習によるものではなく、適切に深いモデルにさらに層を追加すると、訓練誤差が増加する。


- この論文では、深い残差学習フレームワークを導入し、劣化問題に対処する。各層が直接望ましいマッピングを適合させるのではなく、これらの層が残差マッピングを適合させるようにする。
- ImageNetとCIFAR-10のデータセットで実験を行い、深い残差ネットが最適化しやすく、深さが増すと訓練誤差が増加する「プレーン」ネットと比較して、大幅に深さが増加した場合でも精度が向上することを示した。
- ImageNet分類データセットでは、非常に深い残差ネットにより優れた結果を得た。また、他の認識タスクでも優れた汎化性能を示し、ILSVRC&COCO 2015コンペティションでImageNet検出、ImageNetローカライゼーション、COCO検出、COCOセグメンテーションの各部門で1位を獲得した。

・残差表現:画像認識では、VLADは辞書に対する残差ベクトルをエンコードする表現であり、Fisher VectorはVLADの確率的バージョンとして定式化できる。これらは画像検索と分類のための強力な浅い表現である。ベクトル量子化では、元のベクトルをエンコードするよりも残差ベクトルをエンコードする方が効果的であることが示されている。
・低レベルビジョンとコンピュータグラフィックスでは、部分微分方程式(PDEs)を解くために、Multigrid法が広く使用されている。これは、各サブ問題が粗いスケールと細かいスケールの間の残差解を担当する複数のスケールでのサブ問題としてシステムを再定式化する。
・ショートカット接続:ショートカット接続につながる実践と理論は長い間研究されてきた。初期の多層パーセプトロン(MLPs)の訓練では、ネットワーク入力から出力への線形層を追加することが一般的であった。
・著者らの作業と並行して、「ハイウェイネットワーク」はゲーティング機能を持つショートカット接続を提示している。これらのゲートはデータ依存であり、パラメータを持つ。これに対して、著者らの独自性はショートカットがパラメータフリーであることである。


Residual Learning

- H(x)をいくつかの積層レイヤー(必ずしも全ネットではない)によってフィットさせる基礎的なマッピングと考え、xはこれらのレイヤーの最初の入力を示す。
- 複数の非線形レイヤーが複雑な関数を漸近的に近似できると仮定すると、それらが残差関数、つまりH(x)x(入力と出力が同じ次元であると仮定)を漸近的に近似できると仮定するのと同等である。
- 積層レイヤーがH(x)を近似することを期待するのではなく、これらのレイヤーが残差関数F(x) := H(x)xを明示的に近似するようにする。元の関数はF(x)+xとなる。
- この再定式化は、劣化問題(図1、左)についての直感に反する現象によって動機づけられている。追加されたレイヤーが同一マッピングとして構築できる場合、より深いモデルはその浅い対応物よりも訓練誤差が大きくなるべきではない。- 実際のケースでは、同一マッピングが最適であることはまれであるが、再定式化により問題の事前条件を設定するのに役立つ可能性がある。最適な関数がゼロマッピングよりも同一マッピングに近い場合、ソルバーは新しい関数として学習するよりも、同一マッピングを参照にして摂動を見つける方が容易であるべきである。

Identity Mapping by Shortcuts

- 本研究では、数層ごとに残差学習を採用しています。図2に示すようなビルディングブロックを定義しています:

ここで、xとyは考慮される層の入力と出力ベクトルで、F(x, {W i })は学習すべき残差マッピングを表します。


- 2層の例では、F = W 2 σ(W 1 x)でσはReLUを示し、バイアスは表記を簡素化するため省略されています。F + xの操作はショートカット接続と要素ごとの加算によって行われます。
- ショートカット接続は追加のパラメータや計算複雑性を導入せず、これは実践的に魅力的であり、また、プレーンネットワークと残差ネットワークの比較において重要です。
- xとFの次元は等しくなければならず、そうでない場合(例えば、入力/出力チャネルを変更する場合)は、ショートカット接続による線形射影Wsを行うことで次元を合わせることができます:


- 残差関数Fの形式は柔軟で、本研究では2層または3層の関数Fを用いた実験を行っています。ただし、Fが1層しかない場合、Eqn.( 1)は線形層に似ており、その利点は観察されません。
- 以上の表記は全結合層についてのものですが、畳み込み層にも適用可能です。F(x, {W i })は複数の畳み込み層を表すことができます。要素ごとの加算は、チャネルごとに2つの特徴マップ上で行われます。


Network Architectures

- 様々なプレーン/残差ネットをテストし、一貫した現象を観察しました。議論のための例として、ImageNetの2つのモデルを以下のように説明します。
- プレーンネットワーク:私たちのプレーンベースライン(図3、中央)は主にVGGネット[41](図3、左)の哲学に触発されています。畳み込み層は主に3×3のフィルターを持ち、2つのシンプルな設計ルールに従います:(i) 同じ出力特徴マップサイズの場合、レイヤーは同じ数のフィルターを持つ、(ii) 特徴マップサイズが半分になると、フィルターの数は時間複雑度を保つために倍になります。ダウンサンプリングは、ストライド2の畳み込み層によって直接行います。ネットワークはグローバル平均プーリング層と1000ウェイの全結合層、ソフトマックスで終わります。重み付けされたレイヤーの総数は図3で34です。



- 著者らのモデルは、VGGネット[41]よりもフィルターが少なく、複雑さが低いことに注目すべきです(図3 レジデュアルネットワーク)。
- 上記のプレーンネットワークに基づき、ショートカット接続(図3、右)を挿入し、ネットワークをその対応するレジデュアルバージョンに変換します。
- 入力と出力が同じ次元の場合、アイデンティティショートカット(式(1))を直接使用できます(図3の実線ショートカット)。
- 次元が増加する場合(図3の点線ショートカット)、2つのオプションを考慮します:(A)ショートカットは依然としてアイデンティティマッピングを実行し、次元を増やすために余分なゼロエントリをパディングします。このオプションは追加のパラメータを導入しません。(B)次元を合わせるために、射影ショートカット(式(2))が使用されます(1×1の畳み込みによって行われます)。
- 両方のオプションについて、ショートカットが2つのサイズの特徴マップを横切るとき、それらはストライド2で実行されます。

Implementation

- 画像認識の実装は[21,41]の手法に従って行います。画像は短辺が[256, 480]の範囲でランダムにリサイズされ、スケール拡張[41]が行われます。
- 画像またはその水平反転からランダムに224×224のクロップがサンプリングされ、ピクセルごとの平均が減算されます[21]。
- [21]で使用されている標準的な色補正が適用されます。
- 各畳み込みの直後と活性化の前にバッチ正規化(BN)[16]を採用し、[16]に従います。
- 重みは[13]の方法で初期化し、すべてのプレーン/残差ネットをゼロから訓練します。
- SGDを使用し、ミニバッチサイズは256です。学習率は0.1から始まり、エラーが平らになると10で割ります。モデルは最大60 × 10 4回の反復で訓練されます。
- 重みの減衰は0.0001、モーメンタムは0.9です。ドロップアウト[14]は使用せず、[16]の手法に従います。
- テストでは、比較研究のために標準的な10クロップテスト[21]を採用します。最良の結果を得るために、[41,13]のような完全畳み込み形式を採用し、複数のスケールでスコアを平均化します(画像は短辺が{224, 256, 384, 480, 640}になるようにリサイズされます)。


Experiments

ImageNet Classification

- ImageNet 2012分類データセットを用いて、著者らの手法を評価した。モデルは128万の訓練画像で訓練し、5万の検証画像で評価した。また、テストサーバーが報告した10万のテスト画像の最終結果も得た。Top-1とTop-5のエラーレートを評価した。
- まず、18層と34層のプレーンネットを評価した。34層のプレーンネットは図3(中)に示されている。18層のプレーンネットも同様の形式である。詳細なアーキテクチャは表1を参照。


- 表2の結果から、深い34層のプレーンネットは、浅い18層のプレーンネットよりも検証エラーが高いことがわかった。その理由を明らかにするために、図4(左)で訓練/検証エラーを比較した。訓練過程全体で34層のプレーンネットの訓練エラーが高いことが観察された。


- 次に、18層と34層の残差ネット(ResNets)を評価した。基本的なアーキテクチャは上記のプレーンネットと同じで、各3×3フィルターのペアにショートカット接続が追加されている(図3(右))。最初の比較では、すべてのショートカットに対してアイデンティティマッピングを使用し、次元を増やすためにゼロパディングを使用した(オプションA)。
- 表2と図4から3つの主要な観察結果が得られた。まず、残差学習により状況が逆転し、34層のResNetが18層のResNetよりも優れている(2.8%)。さらに、34層のResNetは訓練エラーが大幅に低く、検証データに対して汎用性があることが示された。
- 最後に、著者らの152層のResNetは単一モデルのTop-5検証エラーが4.49%で、これはすべての以前のアンサンブル結果を上回る。異なる深さの6つのモデルを組み合わせてアンサンブルを形成し、テストセットで3.57%のTop-5エラーを達成した(表5)。このエントリーはILSVRC 2015で1位を獲得した。


CIFAR-10 and Analysis

- CIFAR-10データセット(50kの訓練画像と10kのテスト画像、10クラス)についてさらに研究を行いました。訓練セットで訓練し、テストセットで評価する実験を行いました。
- 極めて深いネットワークの挙動に焦点を当て、最先端の結果を追求するのではなく、意図的に以下のようなシンプルなアーキテクチャを使用しました。
- ネットワークの入力は32×32の画像で、ピクセルごとの平均が引かれています。最初のレイヤーは3×3の畳み込みです。
- その後、特徴マップのサイズが{32, 16, 8}である3×3の畳み込みを持つ6n層をスタックし、各特徴マップサイズに対して2n層を使用します。フィルターの数はそれぞれ{16, 32, 64}です。
- サブサンプリングはストライド2の畳み込みによって行われます。ネットワークはグローバル平均プーリング、10方向の全結合層、そしてソフトマックスで終わります。
- このデータセットでは、すべてのケースでアイデンティティショートカット(オプションA)を使用し、残差モデルは平坦な対応物と全く同じ深さ、幅、パラメータ数を持ちます。
- さらに、n = 18を探索し、110層のResNetを導き出します。この場合、初期の学習率0.1は少し大きすぎて収束し始めるのに適していないことがわかりました。
- 1000層以上のモデルを探索しました。n = 200を設定し、1202層のネットワークを導き出しました。このネットワークは訓練誤差が0.1%未満(図6、右)を達成することができました。


Exploring Over 1000 layers. 

-1000層を超える深いモデル(1202層ネットワーク)を探索し、訓練エラーは0.1%未満、テストエラーは7.93%と良好な結果を達成。
-しかし、1202層ネットワークは110層ネットワークよりもテスト結果が悪く、これは過学習が原因と考えられる。
-強力な正則化技術(maxoutやdropoutなど)を使用せずに、深く細いアーキテクチャによるシンプルな正則化を試みたが、将来的には強力な正則化との組み合わせによる改善を検討。


Object Detection on PASCAL and MS COCO

- 著者らの手法は他の認識タスクに対しても良好な汎化性能を持っています。表7と8は、PASCAL VOC 2007と2012 [5] およびCOCO [26] におけるオブジェクト検出の基本結果を示しています。


- 検出方法としてFaster R-CNN [32] を採用しています。ここでは、VGG-16 [41] をResNet-101に置き換えることによる改善に興味があります。
- 両モデルを使用した検出の実装(付録参照)は同じであるため、得られる利益はより優れたネットワークにのみ帰せられます。
- 特に注目すべきは、難易度の高いCOCOデータセットで、COCOの標準メトリック(mAP@[.5, .95])で6.0%の増加、つまり28%の相対的な改善を達成したことです。この利益は、学習した表現にのみ起因しています。
- 深層残差ネットに基づいて、著者らはILSVRC&COCO 2015の競技会でいくつかのトラックで1位を獲得しました:ImageNet検出、ImageNet位置特定、COCO検出、およびCOCOセグメンテーション。詳細は付録にあります。

 

論文要約:EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks 

EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks 

arxiv.org

図表は全て元論文から引用

Abstract


- 研究目的:

畳み込みニューラルネットワーク(ConvNets)のモデルスケーリングを体系的に研究し、ネットワークの深さ、幅、解像度を適切にバランスさせることでパフォーマンスが向上することを特定する。また、新たなスケーリング方法を提案し、EfficientNetsという新しいモデル群を設計する。


- 方法論:

深さ/幅/解像度の全ての次元を一様にスケーリングする新しい方法を提案し、MobileNetsとResNetのスケーリングにこの方法の有効性を示す。さらに、ニューラルアーキテクチャ検索を使用して新しいベースラインネットワークを設計し、それをスケーリングアップする。


- 結果:

EfficientNetsは、以前のConvNetsよりもはるかに高い精度と効率を達成する。特に、EfficientNet-B7はImageNetで最先端の84.3%のトップ1精度を達成し、最良の既存のConvNetよりも8.4倍小さく、推論が6.1倍速い。また、EfficientNetsはCIFAR-100(91.7%)、Flowers(98.8%)、その他3つの転送学習データセットで最先端の精度を達成し、パラメータは1桁少ない。


- 結論:

ネットワークの深さ、幅、解像度を適切にバランスさせることで、ConvNetsのパフォーマンスが向上することが確認された。また、新たなスケーリング方法とEfficientNetsの設計により、精度と効率の向上が達成された。

 

Introduction


- ConvNetsのスケーリングアップは、より高い精度を達成するために広く使用されています。例えば、ResNetは、より多くの層を使用してResNet-18からResNet-200にスケーリングアップすることができます。
- しかし、ConvNetsのスケーリングアップのプロセスはまだ十分に理解されておらず、現在では多くの方法が存在します。最も一般的な方法は、深さ(He et al., 2016)または幅(Zagoruyko & Komodakis, 2016)によってConvNetsをスケーリングアップすることです。
- この論文では、ConvNetsのスケーリングアップのプロセスを再考し、より高い精度と効率を達成できる原則的な方法があるかどうかを調査します。
- 著者らの実証研究は、ネットワークの幅/深さ/解像度のすべての次元をバランスさせることが重要であることを示しています。この観察に基づき、著者らは単純だが効果的な複合スケーリング方法を提案します。
- 著者らのEfficientNetsは、他のConvNetsを大幅に上回ります。特に、EfficientNet-B7は、GPipeの最高精度を上回り、パラメータを8.4倍少なくし、推論で6.1倍速く動作します。

- ConvNetの精度:AlexNet(Krizhevsky et al., 2012)が2012年のImageNetコンペティションで優勝して以来、ConvNetsは大きくなることで精度が向上してきました。2014年のImageNet優勝者GoogleNet(Szegedy et al., 2015)は約680万のパラメータで74.8%の精度を達成し、2017年の優勝者SENet(Hu et al., 2018)は1億4500万のパラメータで82.7%の精度を達成しました。最近では、GPipe(Huang et al., 2018)が5億5700万のパラメータを使用して84.3%の精度を達成しました。
- ConvNetの効率:深層ConvNetsはしばしば過剰にパラメータ化されています。モデルの圧縮(Han et al., 2016;He et al., 2018;Yang et al., 2018)は、精度と効率のトレードオフでモデルのサイズを減らす一般的な方法です。最近では、ニューラルアーキテクチャ検索が効率的なモバイルサイズのConvNetsの設計で人気を博しています。
- モデルのスケーリング:ConvNetを異なるリソース制約に対してスケーリングする方法は多くあります。ResNet(He et al., 2016)はネットワークの深さ(#レイヤー)を調整することでスケーリングすることができます。著者らの研究では、ネットワークの幅、深さ、解像度の3つの次元すべてに対してConvNetのスケーリングを系統的かつ経験的に研究します。


Compound Model Scaling

- 著者らは、スケーリング問題を定式化し新しいスケーリング方法を提案します。

- ConvNetレイヤーiは関数Y i = F i (X i )として定義され、F iは演算子、Y iは出力テンソル、X iは入力テンソルを表す。テンソルの形状はH i , W i , C i 1で、H iとW iは空間次元、C iはチャネル次元を示す。

- ConvNet は、レイヤーのリストとして表現され、

となる。実際には、ConvNetのレイヤーは複数のステージに分割され、各ステージのすべてのレイヤーは同じアーキテクチャを共有する。
- 例えば、ResNetは5つのステージを持ち、各ステージのすべてのレイヤーは最初のレイヤーがダウンサンプリングを行う以外は同じ畳み込みタイプを持つ。
- モデルスケーリングは、ベースラインネットワークで事前に定義されたF iを変更せずに、ネットワークの長さ(L i )、幅(C i )、解像度(H i , W i )を拡大しようとする。
- すべてのレイヤーが一定の比率で均一にスケーリングされるべきであるという制約を設けることで、設計空間をさらに削減する。目標は、与えられたリソース制約の下でモデルの精度を最大化することである。


Scaling Dimensions


- 問題2の主な困難は、最適なd、w、rが相互に依存し、リソース制約により値が変化することです。この困難さから、従来の方法では主にConvNetsの次元を一つだけ拡大しています。
- 深さ(d): 多くのConvNetsが使用する最も一般的な方法です。しかし、深いネットワークは勾配消失問題により訓練が難しくなります。
- 幅(w): 小型モデルに対して一般的に使用されます。しかし、極端に広いが浅いネットワークは、高次元の特徴を捉えるのが難しい傾向があります。
- 解像度(r): 高解像度の入力画像を使用すると、ConvNetsはより細かいパターンを捉える可能性があります。しかし、非常に高解像度では精度の向上が減少します。
- 観察1: ネットワークの幅、深さ、解像度のいずれかの次元を拡大すると精度が向上しますが、大きなモデルでは精度の向上が減少します。


Compound Scaling

- 異なるスケーリング次元が独立していないことを経験的に観察しています。高解像度の画像では、ネットワークの深さを増やすことで、大きな画像の多くのピクセルを含む類似の特徴を捉えることができます。
- また、解像度が高い場合は、ネットワークの幅も増やすべきです。これにより、高解像度の画像のより細かいパターンを捉えることができます。
- これらの直感から、従来の単一次元のスケーリングではなく、異なるスケーリング次元を調整し、バランスを取る必要があることが示唆されます。
- この直感を検証するために、異なるネットワークの深さと解像度での幅のスケーリングを比較しました。結果として、ネットワークの幅をスケーリングするだけでは、精度がすぐに飽和することがわかりました。


- 本研究では、新たな複合スケーリング方法を提案します。これは、複合係数φを用いて、ネットワークの幅、深さ、解像度を一貫してスケーリングします。この方法では、新たなφに対して、全体のFLOPSがおおよそ2φ増加するように制約を設けています。


EfficientNet Architecture

- モデルスケーリングはベースラインネットワークの層演算子Fiを変更しないため、良好なベースラインネットワークを持つことも重要である。既存のConvNetsを用いてスケーリング方法を評価するが、その効果をより明確に示すために、EfficientNetと呼ばれる新しいモバイルサイズのベースラインも開発した。
- (Tan et al., 2019)に触発され、精度とFLOPSの両方を最適化する多目的ニューラルアーキテクチャ検索を利用してベースラインネットワークを開発した。具体的には、(Tan et al., 2019)と同じ検索空間を使用し、ACC(m)×[FLOPS(m)/T] wを最適化目標とした。ここで、ACC(m)とFLOPS(m)はモデルmの精度とFLOPSを示し、Tは目標FLOPS、w=-0.07は精度とFLOPSのトレードオフを制御するハイパーパラメータである。
- ベースラインのEfficientNet-B0から出発し、2つのステップで複合スケーリング方法を適用してスケールアップする。ステップ1では、φ = 1を固定し、2倍のリソースが利用可能であると仮定し、方程式2と3に基づいてα、β、γの小さなグリッド検索を行う。ステップ2では、α、β、γを定数として固定し、方程式3を使用して異なるφでベースラインネットワークをスケールアップし、EfficientNet-B1からB7を得る。
- 大きなモデル周辺で直接α、β、γを検索することでさらに良いパフォーマンスを達成することは可能だが、大きなモデルでの検索コストは禁止的に高くなる。著者らの方法は、小さなベースラインネットワークで一度だけ検索を行い(ステップ1)、その後、他のすべてのモデルで同じスケーリング係数を使用する(ステップ2)ことでこの問題を解決する。


Experiments

- このセクションでは、まず既存のConvNetsと新たに提案されたEfficientNetsに対して、私たちのスケーリング方法を評価します。
- ConvNetsとEfficientNetsの両方に対してスケーリング手法の効果を検証することで、その有効性を確認します。


Scaling Up MobileNets and ResNets

- 著者らのスケーリング方法を初めて広く使用されているMobileNets(Howard et al., 2017; Sandler et al., 2018)とResNet(He et al., 2016)に適用し、その概念証明を行った。
- 表3は、これらを異なる方法でスケーリングしたImageNetの結果を示している。
- 他の単一次元スケーリング方法と比較して、著者らの複合スケーリング方法はこれらのモデルすべての精度を向上させ、著者らの提案するスケーリング方法の一般的なConvNetsに対する有効性を示唆している。



- アンサンブルやマルチクロップモデル(Hu et al., 2018)、または3.5BのInstagram画像で事前学習されたモデル(Mahajan et al., 2018)は省略した。


ImageNet Results for EfficientNet

- 著者らはEfficientNetモデルをImageNetで訓練し、RMSPropオプティマイザー(減衰0.9、運動量0.9)、バッチノーム運動量0.99、重み減衰1e-5、初期学習率0.256(2.4エポックごとに0.97減衰)を使用。
- SiLU(Swish-1)活性化、AutoAugment、確率0.8の確率的深度も使用。大きなモデルでは正則化が必要なため、EfficientNet-B0のドロップアウト比率を0.2からB7の0.5に線形に増加させる。
- 訓練セットからランダムに選んだ25Kの画像をminivalセットとして予約し、このminivalで早期停止を行い、早期停止したチェックポイントを元の検証セットで評価して最終的な検証精度を報告。
- 表2は、同じ基準のEfficientNet-B0からスケーリングされたすべてのEfficientNetモデルのパフォーマンスを示している。EfficientNetモデルは、同等の精度を持つ他のConvNetsよりもパラメータとFLOPSを大幅に少なく使用。


- EfficientNet-B7は、66Mのパラメータと37BのFLOPSで84.3%のtop1精度を達成し、以前の最高のGPipeよりも精度が高く、8.4倍小さい。
- これらの利益は、より良いアーキテクチャ、より良いスケーリング、そしてEfficientNetに特化したより良い訓練設定から得られる。
- 著者らのEfficientNetモデルは小さく、計算も安価である。例えば、EfficientNet-B3は、ResNeXt-101よりも高い精度を達成し、FLOPSを18倍少なく使用。

- 実際のCPU上でいくつかの代表的なCovNetsの推論遅延を測定し、20回の実行の平均遅延を報告。EfficientNet-B1は、広く使用されているResNet-152よりも5.7倍速く、EfficientNet-B7はGPipeよりも約6.1倍速く実行される。


Transfer Learning Results for EfficientNet

- 著者らはEfficientNetを一般的に使用される転移学習データセットに評価しました(表6参照)。訓練設定は(Kornblith et al., 2019)と(Huang et al., 2018)から借用し、ImageNetの事前学習チェックポイントを新しいデータセットで微調整しました。

- 表5は転移学習のパフォーマンスを示しています:(1) NASNet-A (Zoph et al., 2018)やInception-v4 (Szegedy et al., 2017)などの公開モデルと比較して、EfficientNetモデルは平均で4.7倍(最大21倍)のパラメータ削減でより高い精度を達成します。


- (2) DAT (Ngiam et al., 2018)やGPipe (Huang et al., 2018)などの最先端モデルと比較しても、EfficientNetモデルは8つのデータセットのうち5つで彼らの精度を上回り、9.6倍少ないパラメータを使用します。
- 一般的に、EfficientNetsはResNet (He et al., 2016)、DenseNet (Huang et al., 2017)、Inception (Szegedy et al., 2017)、NASNet (Zoph et al., 2018)などの既存モデルよりも、桁違いに少ないパラメータで常により高い精度を達成します。


Discussion


- 提案したスケーリング方法とEfficientNetアーキテクチャの寄与を分離するために、図8は同じEfficientNet-B0基準ネットワークの異なるスケーリング方法のImageNet性能を比較しています。全体的に、すべてのスケーリング方法はFLOPSのコストで精度を向上させますが、提案した複合スケーリング方法は他の単一次元スケーリング方法よりも最大2.5%精度を向上させることができ、提案した複合スケーリングの重要性を示しています。


- 提案した複合スケーリング方法が他の方法よりも優れている理由をさらに理解するために、図7は異なるスケーリング方法を持ついくつかの代表的なモデルのクラス活性化マップ(Zhou et al., 2016)を比較しています。これらのモデルはすべて同じ基準からスケーリングされ、その統計は表7に示されています。画像はImageNet検証セットからランダムに選ばれます。図に示されているように、複合スケーリングを持つモデルは、より関連性の高い領域に焦点を当て、より多くのオブジェクトの詳細を捉える傾向があります。他のモデルはオブジェクトの詳細が不足しているか、画像内のすべてのオブジェクトを捉えることができません。


Conclusion

- この論文では、ConvNetのスケーリングを体系的に研究し、ネットワークの幅、深さ、解像度を適切にバランスさせることが、より高い精度と効率性を阻害する重要な要素であることを特定しました。
- この問題を解決するために、著者らは単純で非常に効果的な複合スケーリング方法を提案し、これによりベースラインのConvNetを任意の目標リソース制約に対して原則的にスケールアップすることが可能になり、モデルの効率性を維持します。
- この複合スケーリング方法により、モバイルサイズのEfficientNetモデルを非常に効果的にスケールアップすることができ、パラメータとFLOPSが桁違いに少ない状態で、ImageNetと5つの一般的に使用される転移学習データセットの両方で最先端の精度を超えることができることを示しました。