論文要約:Earthquake transformer—an attentive deep-learning model for simultaneous earthquake detection and phase picking

Earthquake transformer—an attentive deep-learning model for simultaneous earthquake detection and phase picking

www.nature.com

S. Mostafa Mousavi, William L. Ellsworth, Weiqiang Zhu, Lindsay Y. Chuang & Gregory C.

Beroza  Published: 07 August 2020

ライセンス:CC BY 4.0 Deed | 表示 4.0 国際 | Creative Commons

 

Abstract

目的

  • 地震信号の検出と地震相(P波、S波)の選定は、ノイズが多いデータの処理や微小地震のモニタリングにおいて難しい課題である。この論文では、地震検出とP波、S波の選定を同時に行うアテンション機構を含めたディープラーニングモデルを提案している。

方法

  • 地震信号の波形と相情報を組み合わせることで、各個別タスクのモデル性能を向上させる。階層的アテンションメカニズムを使用してこれら二つの関連するタスクを連携させる。

結果

  • 提案モデルは、以前のディープラーニングおよび検出アルゴリズムよりも優れた性能を示した。2000年の鳥取地震で記録された5週間の連続データにモデルを適用した結果、使用する地震計の1/3未満で2倍以上の地震を検出・位置特定できた。モデルは、人間のアナリストによる手動選定に近い精度でP波とS波の相を選定する。

結論

  • 提案されたディープラーニングモデルは、高い効率と感度により、より多くの小さなイベントを検出することが可能である。地震検出と相選定を同時に行うことで、地震データの処理と微小地震のモニタリング精度の改善が期待できる。

Introduction

  • 深層学習は、幅広いアプリケーションに効果的に適用されている方法である。地震モニタリングでは、大量のデータを効率良く処理するための方法が求められており、地震検出と相選定は機械学習にとって魅力的なタスクである。
  • 地震信号の検出と相選定は、地震モニタリングにおける難易度の高い問題であり、これらのタスクは従来手法と比較して深層学習が上手くいくことが多くの研究で示されている。
  • 検出は地震信号を非地震信号やノイズの中から特定することを指し、相選定は地震の位置を推定するために使用される地震信号内の特定の地震相(P波とS波)の到着時間を測定することを指す。
  • これらのタスクは類似点を持ちながらも、目的が完全に同じではなく、検出では偽陰性率※1と偽陽性率※2を最小限に抑えること、相選定では到着時間のピックの時間精度を高めることが主な目標である。

※1 地震信号であるにも関わらず、地震信号でないと誤って判断される割合※2 実際には地震信号でないもの(例えば、ノイズや非地震の信号)を地震信号であると誤って判断する割合

  • 深層学習による地震波形と地震相の検出・選定モデルは、地震波形のコンテキスト情報を取り入れることで得られるより良い表現を学習することにより機能する。
  • 地震信号の全体と特定相の到着周辺の局所的な部分との相互作用をモデリングするために、関連するセクション(波形の範囲)を特定することが有益である。
  • アテンションメカニズムをネットワークに組み込むことで、地震信号の全体的な識別とその内部の異なる地震相の識別において、局所的および全体的な地震の特徴を効果的に扱う。
  • 新しい深層学習モデル(EQTransformer)を紹介し、これを用いて日本で記録された5週間分の連続波形データに適用し、モデルの他地域への一般化能力と地震源の特性評価の改善能力を示す。

Result

Network architecture

  • エンコーダーは時系列の地震信号を消費し、それらの時間依存性に関する高レベルの表現と文脈情報を生成する。デコーダーはこの情報を使用して、各時点における地震信号の存在、P相、S相に関連する確率の3つのシーケンスに高レベルの特徴をマッピングする。
  • シーケンス長に対してメモリ使用量が増加する自己アテンションモデルにおいて、エンコーダーの前部に畳み込み層とマックスプーリング層からなるダウンサンプリングセクションを追加する。
  • 地震信号に関連する部分にネットワークの注意を向けるために、エンコーダーの末尾にグローバルアテンションセクションが配置される。これらの高レベルの特徴は、地震信号の存在を表す確率のベクトルに直接マッピングされる。
  • ネットワークは56層で構成され、約372Kの訓練可能なパラメーターを持つ。ネットワークアーキテクチャの設計は、ドメインの専門知識に基づいている。

Data and labeling

  • ネットワークの訓練には、STanford EArthquake Dataset(STEAD)を使用した。STEADは、地震および非地震信号のラベル付きの大規模なグローバルデータセットである。
  • 使用されたデータは、1M個の地震波形と300K個のノイズ波形(環境ノイズおよび文化ノイズを含む)であり、これらは震央から距離が最大で300kmまでの範囲の記録である。
  • 地震波形は、地理的に多様な約450K個の地震と関連しており、これらの地震の大多数はM2.5未満かつ震央から100km以内で記録された。
  • データはランダムに訓練(85%)、検証(5%)、テスト(10%)セットに分割され、波形は1分間の長さであり、サンプリングレートは100Hzで、1.0–45.0 Hzでバンドパスフィルター処理される。
  • 地震の検出にはボックス形状のラベルが正解値として使用され、P到着からS到着 + 1.4 × (S - P時間)までの対応するサンプルを1に、残りを0に設定する。最終モデルには、三角形のラベリングが使用され、これはハイパーパラメータ選択手順中に低い損失と高いF1スコアをもたらした。

Training

  • 畳み込み層とLSTMユニットの両方において、重みはXavier正規初期化子で初期化され、バイアスはゼロに設定された。
  • 最適化にはADAMを使用し、学習率は訓練中に変化させた。モデルの訓練には、4つの並列Tesla-V100 GPUを使用してtensorflowフレームワーク下で約89時間かかった。
  • トレースの空いている部分に二次地震信号を追加する、地震波形にランダムレベルのガウシアンノイズを追加する、イベントをトレース内でランダムにシフトする、ノイズ波形にランダムにギャップを追加する、および1つまたは2つのチャネルをランダムにドロップすることによりデータ拡張された。
  • 各バッチのデータの半分は、他の半分の波形の拡張バージョンである。データの拡張と正規化(標準偏差による)は、24のCPU上で訓練中に同時に行われた。
  • 訓練時およびテスト時の両方で、すべてのドロップアウト層に0.1のドロップアウト率を使用した。

Exploring the network’s attention

  • ネットワークのアテンションの重みは、各入力状態をどの程度考慮するべきかを定義し、重要度の重みのベクトルとして解釈できる。
  • これらのアテンション重みを明示的に視覚化することで、ニューラルネットワークが入力シーケンスのどの部分に焦点を合わせることを学習したかを確認できる。
  • 評価セットからの特定のイベントに対するこれらのアテンション層の出力(他のすべての時間ステップでの隠れ状態の合計、それらのスコアリングによる重み付け)を示すことで、ネットワークが異なるアテンションレベルで波形の異なる部分に焦点を合わせることを学習したことが明らかになる。

  • エンコーダー地震信号の検出とP波、S波の相選定に最も重要な情報を持つ信号の部分を選択することを学習し、この情報は地震信号の存在を時系列で予測するために検出デコーダーに直接使用される。

Results and comparison with other methods

  •  EQTransformerと他のディープラーニングおよび従来の方法との地震検出と相選定の性能を比較するために、113kを超えるテスト波形(地震およびノイズの例を含む)を使用した。
  • 比較に使用されたディープラーニングモデルは、異なる訓練セットに基づく事前訓練済みモデルであり、すべてSTEADからの共通のテストセットに適用された。
  • モデルは異なる波形形状の地震に対して非常にうまく機能し、検出のためのグローバルな視点を保ちながら、高い時間分解能で明確な到着時間を選定することができる。
  • ネットワークの非常に深い構造により、ノイズレベルに対する感度が低く、背景ノイズが高い小さなイベントに対してもうまく機能する。
  •  モデルを連続データに適用する際、テスト/予測の前に行う必要がある前処理ステップは、ギャップの埋め込み、トレンドの除去、バンドパスフィルタリング、およびデータの100Hzへのリサンプリングのみである。

  • 訓練プロセス中に使用された拡張は、最終モデルの性能に不可欠であった。
  • 訓練データでは、P波の到着時間がウィンドウの最初の四半期に集中し、各トレースには1つのイベントのみが含まれているが、モデルは1分間のウィンドウ内に複数のイベントが存在し、様々な時間点でうまく機能することが示された。
  • モデルは、ウィンドウ内にP波とS波が0.2秒存在する限り、端に発生するイベントも検出・選定できる。
  • 拡張は、連続データ内のギャップを埋める際の急激な変化で偽陽性を生じるのを防ぐ。
  • モデルは、他のチャンネルが故障しているかノイズに支配されている場合や、単一チャンネルデータにも機能する。
  • テストセットにおける検出性能は、混同行列(補足図7)で示され、閾値0.5を使用した結果、113Kのテストサンプル中で偽陽性1件、偽陰性0件(欠損イベントなし)が報告された(補足図8)。
  • ディープラーニング検出器(DetNet5, Yews4, CRED7)と伝統的検出器(STA/LTA11)3つを同じテストセットに適用し、性能を比較した。提案モデルは、F1スコアの観点から他の方法よりも優れている。
  • CREDも畳み込みおよび再帰ユニットを含み、同じデータセット(STEAD)で訓練されたが、EQTransformerの性能には及ばなかった。これは、アテンションメカニズムの組み込みとより深いネットワークの使用が地震信号検出に有益であることを示している。
  • P波とS波の選定性能を、ディープラーニング自動選定器(PhaseNet8, GPD10, PpkNet5, Yews4, PickNet2)と伝統的自動選定器(Kurtosis17, FilterPicker18, AIC19)と比較した。EQTransformerはP波およびS波選定のFスコアを向上させたが、P波選定の改善がS波選定よりも顕著であった。これは、S波選定がより困難で誤差が多くなりやすいため、訓練セットでのラベリングエラーが増加する可能性があるためである。
  • テストセットにおける検出性能は、混同行列で示され、閾値0.5を使用した結果、113Kのテストサンプル中で偽陽性1件、偽陰性0件(欠損イベントなし)が報告された。
  • ディープラーニング検出器(DetNet5, Yews4, CRED7)と伝統的検出器(STA/LTA11)3つを同じテストセットに適用し、性能を比較した。提案モデルは、F1スコアの観点から他の方法よりも優れている。
  • CREDも畳み込みおよび再帰ユニットを含み、同じデータセット(STEAD)で訓練されたが、EQTransformerの性能には及ばなかった。これは、アテンションメカニズムの組み込みとより深いネットワークの使用が地震信号検出に有益であることを示している。
  • P波とS波の選定性能を、ディープラーニング自動選定器(PhaseNet8, GPD10, PpkNet5, Yews4, PickNet2)と伝統的自動選定器(Kurtosis17, FilterPicker18, AIC19)と比較した。EQTransformerはP波およびS波選定のFスコアを向上させたが、P波選定の改善がS波選定よりも顕著であった。これは、S波選定がより困難で誤差が多くなりやすいため、訓練セットでのラベリングエラーが増加する可能性があるためである。

Application to other regions

  • 我々のモデルの訓練に使用されたSTEADデータセットには、日本の波形データが含まれていないため、日本はモデルの性能と汎化能力をテストする理想的な場所である。
  • 2000年の鳥取地震(Mw 6.6)の余震領域をこのテストのために選択し、2000年10月6日から11月17日までの期間にHiNetの18の地震計ステーションから得た連続データに検出器/相選定モデルを適用した。
  • EQTransformerの予測モジュールは、特定の閾値以上の確率を持つ少なくとも1つの相(PまたはS)が存在する時に結果を出力する。ここでは、検出、P選定、S選定にそれぞれ0.5、0.3、0.3の閾値を使用した。
  • この期間内に21,092のイベントを検出・位置付けした。これは、同時期に手動で選定された相を用いて8521イベントを再位置付けした数と比較して2倍以上の増加である。EQTransformerにより作成されたカタログには、気象庁によって報告されたほぼすべてのイベントが含まれている。

Discussion

  • P波・S波選定における提案方法の優れた性能は、訓練セットの質と量、アーキテクチャ設計、アテンションメカニズム、ネットワークの深さ、訓練プロセス中に使用された拡張など、いくつかの要因に起因する可能性がある。
  • アテンションメカニズムは、全波形内のグローバルおよびローカルスケールの特徴を組み込むのに役立つ。より深いネットワークは、より非線形マッピング関数の学習を通じて、より差別化された力をもたらす可能性がある。
  • ピッカーのテストセット結果に基づくと、エラーはノイズレベルと相関しているようである。しかし、出力確率の変動とピッキングエラー間の明確な相関関係は見られなかった。
  • P波の選定は、震央距離が大きい波形でより不確実性が高い傾向にある。このより高い不確実性は、訓練セット内の長距離波形が少ないことと、P波の最初の到着がDiving Waveである場合に選定が難しくなる事実に起因する可能性がある。
  • 予測確率が低い場合、不確実性レベルが高くなり、モデルはSNRが低い、イベント-ステーション距離が大きい、またはマグニチュードが小さい場合にP波の選定に対して低い確率を出力する。この傾向はS波の選定にはあまり強くない。
  • 訓練データの地理的位置やサイズが性能を主に制御する要因ではないことが示されている。北カリフォルニアのデータのみで訓練されたPhaseNetも非常に良い性能を示し、特定の地域のデータセットで訓練されたディープラーニングモデルが他の地域にもうまく一般化できることを示している。
  • 30Kの波形で訓練されたPpkNet5は、はるかに大きな訓練セットを使用して構築された他のモデルと比較して、P波とS波の両方で高いFスコアを達成した。これは、ネットワークタイプや訓練プロセス、または訓練セットの質など、訓練セットのサイズよりも他の要因がより重要な役割を果たすことを示唆している。
    ピッキングの精度は、ラベリングと訓練手順によってより大きく影響を受けるようである。例えば、Yews4、GPD10、PpkNet5のP波ピックの散発的なエラー分布は、特定の時間点に集中する到着時間に敏感になる訓練手順に起因する可能性がある。
  • 従来の検知手法と比較して、ディープラーニングベースの方法は、特にS波において、ノイズが多い波形に対してより優れた性能を発揮する。異なる特性を持つモデルの比較分析を行うことは非常に困難な課題である。
  • 従来の検知手法は到着時間のピッキング精度においては比較的良好な成績を示すが、一般にリコールが低くS波のピッキング性能が劣る。
  • 従来の検知手法の非対称なエラー分布は、到着時間のピッキングにおける体系的な遅延による歪みに主に起因しており、これはS波において顕著である。しかし、いくつかのディープラーニングモデルと比較しても効果的であることが示されている。
  • 伝統的なピッカーが必ずしも高速であるわけではない。例えば、2.7 GHzのIntel Core i7プロセッサと16 GBのメモリを搭載したマシンでは、Kurtosis、FilterPicker、AICピッカーはテストセット全体のピッキングにそれぞれ62時間12分、3時間25分、31時間18分を要するが、EQTransformerは2時間28分で検出/ピッキングを完了する。
  • EQTransformerの日本データへの適用は、モデルの高い一般化能力と精度を示している。EQTransformerによる到着時間のピックの精度は手動ピックと比較可能であり、その高い感度により検出されたイベントの数が2倍以上になる。
  • この結果は、地震計の1/3未満の部分のみを使用し、比較的大きなステーション間隔と単純な関連付け方法を用いても達成された。より高度なフェーズ関連付けアルゴリズムを使用すると、イベント数がさらに増加する可能性がある。この方法の効果と高効率(1ヶ月分の連続データを1ステーションで処理するのに1CPUで23分かかる)は、地震モニタリングの改善に向けた可能性を示している。

Conclusion

  • 本論文では、階層的なアテンションモデルに基づく、地震検出と相選定を同時に行うマルチタスクネットワークを提示する。
  • ネットワークは、深いエンコーダー1つと3つの別々のデコーダーから構成される。2つのレベルの自己アテンション(グローバルとローカル)が階層構造でネットワークに組み込まれ、ニューラルネットワーク地震波形内の局所的およびグローバルな特徴間の依存関係を捉えて活用するのを助ける。
  • このモデルにはいくつかの特徴がある:(1) 地震信号の最初の階層的アテンションモデルである。(2) 56の活性化層を持ち、地震信号処理のために訓練された最も深いネットワークである。(3) 階層構造を通じてこれらのタスク間の依存関係をモデリングしながら、検出と相選定を同時に行うマルチタスクアーキテクチャを持つ。(4) 予測確率に加えて、ベイズ推論に基づく出力変動を提供する。(5) 1.2Mの地方地震観測を含むグローバルに分散した訓練セットを使用して訓練された最初のモデルである。