論文要約:Using Deep Learning for Flexible and Scalable Earthquake Forecasting

Using Deep Learning for Flexible and Scalable Earthquake Forecasting

Kelian Dascher-Cousineau1,2, Oleksandr Shchur3, Emily E. Brodsky1, and Stephan Günnemann3

1Department of Earth and Planetary Sciences, University of California, Santa Cruz, Santa Cruz, CA, USA, 2Department of Earth and Planetary Sciences, University of California, Berkeley, Berkeley, CA, USA,

3Department of Computer Science and Munich Data Science Institute, Technical University of Munich, Munich, Germany

https://agupubs.onlinelibrary.wiley.com/doi/10.1029/2023GL103909

ライセンス 

CC BY 4.0 Deed | Attribution 4.0 International | Creative Commons

図表は全て論文中から引用

 

Abstract

  • 目的

    • より多くのデータがより良い地震予測につながるという期待のもと、従来のアプローチの理論的および計算上の限界を克服し、地震観測のより大きなボリュームと多様性へのアクセスを可能にするること。
  • 手法

    • RECAST(Recurrent Earthquake foreCAST)は、ニューラル時間点プロセスの最近の発展に基づいた深層学習モデルであり、従来の方法での理論上の計算の限界を超える。モデルの性能は、時間的エピデミックタイプアフターショックシーケンスモデルと比較される。
  • 結果

    • 合成データに対するテストでは、適度なサイズのデータセットを用いた場合、RECASTが地震のような点プロセスをカタログデータから直接正確にモデル化できることが示された。南カリフォルニア地震カタログに対するテストでは、訓練セットが十分に長い期間(>104イベント)場合、ベンチマークモデルと比較して改善されたフィットと予測精度が示された。
  • 結論

    • RECASTの基本コンポーネントは、パフォーマンスを犠牲にすることなく地震予測の柔軟性とスケーラビリティを追加する。これにより、従来のアプローチの限界を超え、地震カタログの増大する多様性と規模に対応する新たな手法が提供される。

Introduction

  • 地震カタログの多様性と規模は、密集した地震観測網と自動化されたデータ処理技術の向上により、過去数年間で爆発的に増加している。より詳細な観測がより良い地震予測につながるという期待があるが、予測の対応する改善はまだ実現していない。
  • 現行の地震予測モデルは、希少な地震記録に基づいた統計的法則に基づく初期の研究を基礎としており、利用可能な地球物理データの豊富さを完全に活用できていない。
  • 最近の機械学習とニューラル時間点プロセスの進歩は、既存の予測能力を補完し、柔軟でスケーラブルな予測を提供する可能性がある。
  • 本論文では、柔軟性とスケーラビリティを基本要件として満たし、地震データに適しているかを評価する地震予測モデル、RECAST(Recurrent Earthquake foreCAST)を紹介する。

Model Architecture and Benchmark

  • RECASTは、ニューラル時間点プロセスとして知られる機械学習の最近の発展に基づいて構築されている。このモデルは、過去のイベントの履歴を与えられた次のイベントのタイミングを予測する一般的なエンコーダ・デコーダ型のニューラルネットワークアーキテクチャを使用する(下図A)。Details are in the caption following the image
  • RECASTは、過去の地震の可変長の履歴を固定次元の隠れ状態ベクトルエンコードするGated Recurrent Unitニューラルネットワークアーキテクチャに基づいている。
  • 次の地震の発生タイミングの確率密度関数をモデル化するために、Weibull混合分布を用いる。このアプローチにより、出力分布の評価とサンプリングのための反復的数値近似を避けることで、トレーニングとシミュレーションが効率的かつ正確に行われる。
  • 十分な数のコンポーネントを持つ混合分布は、十分なデータがあれば他の任意の確率分布を任意によく近似できる。RECASTの出力は、点過程文献で一般的に使用される条件付き強度関数の観点から、時間に関して連続的に表現される。
  • RECASTモデルは、地震マグニチュードを含む連続的なイベントマークのためのエンコーダーを導入し、ログノーマル混合ではなくワイブル混合を使用して、f(ti∣hi )が非ゼロの切片を持つようにすることで、Shchurらのオリジナルの実装を拡張している。
  • ベンチマークとして、地震の再発をモデル化するために時間的ETASモデル(上図b)を使用し、これは一定の背景率とアフターショックシーケンスの組み合わせによって時間依存の地震強度を計算するパラメトリック統計モデルである。
  • RECASTとETASはどちらも時間点プロセスモデルであり、カタログ化された発生時刻の結合ログ尤度を最大化することによって訓練される。しかし、RECASTは実用的な利点を導入し、追加のイベント特徴や、モデルのコンポーネントが標準の機械学習フレームワークを使用して容易に適応可能であることを可能にする。
  • RECASTはイベントを順次処理し、イベント履歴を固定次元のベクトルに要約するのに対し、ETASは全ての過去のイベントを参照して強度関数を決定する。その結果、カタログの尤度を評価するための計算時間と空間の複雑さは、RECASTでは線形であり、ETASでは二次的である(上図c参照)。
  • RECASTモデルは、100万以上のイベントを含むカタログを単一の一般的なGPUで訓練することができ、大規模な地震カタログのリアルタイム評価の制限を軽減する。
  • この比較では、時間のみを対象としたETASを対象としている。なぜなら計算上実現可能な空間的ETASモデルを実装するのは困難であり、この初期研究の範囲を超えているからである。

Results

Synthetic Data

  • 最初のステップとして、ETASモデルによって生成された合成カタログのコレクションにおけるRECASTのパフォーマンスを評価する。合成カタログのセットは、訓練(600)、検証(200)、テスト(200)のセットに分割される。それぞれの具現像(モデルで作成されたデータ)は10,000日にわたり、平均して約1,000のイベントを含む。
  • 両モデルにおいて、訓練セットはパラメータの最適化に使用される。訓練中、検証セット上のパフォーマンスを監視し、最良の検証スコアを持つモデル採用する。最終的に、予約されたテストセットに対するモデルパフォーマンスの比較が報告される。
  • レーニングデータの量を増やすことで、RECASTのパフォーマンスはETASに漸近的に近づく。RECASTのアーキテクチャをタスクに特化させることなく、モデルはイベントデータのみから地震の時間的クラスタリングを捉える訓練が可能であることを示す。

  • この場合はマグニチュードが入力データであるが、追加の入力をモデルに取り込むことが上手く行っているデモンストレーションである。

San Jacinto Fault Earthquake Catalog and Scaling

  • 2008年から2021年にかけてのサンジャシント断層を境界とする実際の地震カタログを考察する。このカタログは、特に地震活動が活発なエリアの密集した観測ステーションカバレッジを持つため、良いテストケースとなる。
  • RECASTは予約されたテスト期間においてETASよりも適合度の面で優れている。

  • データサイズの影響を再び探求し、訓練期間を時間を遡って段階的に拡大しながらテストセット上のパフォーマンスを追跡する。この実験では、完全性のマグニチュードが固定されている。
  • 10,000イベント未満で訓練された場合、ETASが好ましいモデルとされる。10,000イベントを超える場合、新モデルのRECASTが好ましいモデルとされる。
  • ETASのベンチマークパフォーマンスは約4,000の訓練イベントを超えると飽和するのに対し、RECASTの対数尤度スコアは訓練データの対数長さに比例して増加し続ける。この交差点は、訓練セットのサイズとパフォーマンスの間に根本的に異なるスケーリングを反映しているようだ。

Comparative Performance on Other Data Sets

  • 1981年から2021年までの南カリフォルニア地震データセンターカタログ全体と、クエークテンプレートマッチングカタログ(Ross et al., 2019)のサブリージョンを考慮すると、同様の改善が見られる。
  • 改善は、検討した小さな地域で最も顕著である。
  • これら異なるカタログでの一貫したサンプル外の改善は、RECASTがデータ生成の複数の方法と地域の地震活動の変動に対して堅牢であることを示唆している。

Southern California Earthquake Catalog and 14-day Forecasts

  • ETASとRECASTを使用して生成された地震予測を、拡張された時間間隔で比較する。訓練された後、RECASTは直接、潜在的地震カタログの延長(potential catalog continuations)をシミュレートする方法を提供する。
  • サンプル地震は、ワイブル混合分布から発生時刻を抽出し、グーデンベルグ・リヒター則からマグニチュードを抽出することにより生成される。カタログにイベントを繰り返し追加することで、潜在的な結果の範囲をカバーする継続が生じる。
  • 2週間の地震予測では、南カリフォルニア地震カタログとサンハシント断層カタログの追加セットの結果を考慮し、テスト期間中に50,000のシミュレートされたカタログ継続が含まれる。
  • 予測の精度は、シミュレートされた継続の割合によって測定され、の値が大きいほど予測が正確であることを示す。


    テストセット内の2週間の間隔の大部分はRECASTによって最もよく予測された(155の14日間の間隔中138が最も適合)。RECASTは最大の地震の後でもより良いパフォーマンスを発揮する。
  • 予測の95%信頼区間外の結果を持つ14日間の窓は、ETASモデルよりもRECASTの方がはるかに少ない(それぞれ14%対33%)。RECASTの予測で全く特徴付けられなかった結果は1回のみ発生し、ETASの予測では10回発生した。

Discussion

  • RECASTはETASと根本的に異なり、カタログデータと次のイベントの発生確率との関係を示す正確な関数形式を必要としない。この点は、合成カタログに対するテストでよく示されている。
  • RECASTは、訓練前にイベント間の時間が厳密に正であるという仮定のみを行い、控えめなサイズのデータセットで訓練することで、入力(この場合はタイミングとマグニチュード)と出力(イベントの可能性)との関係を学習することができる。この新しいデータと関係を取り入れる柔軟性は主要な利点である。
  • 一方、ETASはパラメトリックモデルであり、既知の関数関係を必要とする。後者のアプローチの利点は、必要なパラメータが少ないことである。欠点は、予測がモデルの仮定によって制限されることであり、これは物理的なシステムの変化やカタログデータの準備の過程でのアーティファクトによってしばしば破られる。
  • 新しいモデルは、訓練のために十分に大きな地震カタログを必要とする。サンハシント断層ゾーンからのベンチマークでは、小規模なデータセットにおいては、時間的ETASモデルがRECASTを上回る。この実験では、RECASTがベンチマークを上回る前に、より大きなカタログ(104イベント)が必要である。
  • RECASTとETASの間のパフォーマンスの相対的なギャップはカタログサイズとともに増大し、利用可能なデータが増加するにつれてスケールする可能性のある持続的な改善を示唆している。ETASとは異なり、RECASTのモデルアーキテクチャは、現在利用可能なデータのボリュームがこの傾向に計算上の限界をもたらさないことを保証する。
  • 改善の正確な原因を診断することは難しいが、いくつかの診断点を強調できる。特に、改善が顕著なのは小さなサブリージョンである。

  • 時間的ETASモデルはイベントシーケンスの適合不足があり、地震活動の長期的な傾向を考慮していない。サンハシントデータセットの場合、ETASは高い地震活動期に予測が不足し、低い地震活動期には予測を過大評価する。

  • SCEDCカタログの場合、ETASの予測は訓練セットの高い基本地震活動率を反映し、テスト間隔での基本率を一貫して過大予測している。RECASTは同じ訓練期間をすべてのケースで使用しているが、モデルのメモリ(方程式1の隠れ状態)により、検証およびテストセットの時間変動傾向を考慮し、進化し続ける地震活動率をより良く追跡できるかもしれない。

  • 改善は、システムの予測可能性を支配する物理的プロセスの発見、またはRECASTのような深層学習モデルが、ETASのような標準的なパラメトリックモデルに関連する失敗モードを共同で対処することから生じる可能性がある。

  • 深層学習の利点は、よく維持され、急速に進化するライブラリに基づいてモデリングが構築され、データの理想化にあまり依存しない進むべき道を提供することにあるかもしれない。

Conclusion

  • 密集した地震カタログは、地震周期についてより豊かな視野を提供する。しかし、より細かい詳細と増加したデータ量を改善された予測に翻訳することは挑戦であった。
  • RECASTのような深層学習アプローチは、よく知られた統計パターンを回復するのに十分に一般的である。合成データセットに対する実験は、適度な数のイベントが提供された場合、時間的ETASモデルと少なくとも同等の性能を示唆し、RECASTがETASモデルでは明示的にパラメータ化されていないプロセスも捉える可能性があることを示唆している。
  • この研究は、地震予測のためのニューラル時間点プロセスモデルの適用に関する概念実証である。より一般的には、ニューラル時間点プロセスモデルと深層学習は重要な利点を提供する。地震の特徴と予測確率との関係の知識を必要とせず、増大する地震データセットを活用することで、データから直接より複雑な関係を導き出す設計を可能にする。
  • 性能の向上がカタログの観測上の制限をより正確に捉えることによるものか、長期的な地震活動の進化を制御する物理的プロセスを反映しているかどうかは、まだ明らかではない。いずれの場合も、予報者は深層学習の柔軟性とスケーラビリティを活用することにより、強化されたカタログの生成から利益を得ることができる。

 

おまけ 日本昔話風 RECAST 要約(by chatgpt)

昔々、ある遠い地で、地震という大地の息吹を記録する学者たちがいました。彼らは地震カタログという大切な書物に、地震の物語を丹念に記録していました。年月が流れるにつれ、この書物はページを増やし、その詳細は豊かなものとなりました。しかし、多くの物語が集まるにつれ、それらをどのように解釈し、未来の地震を予見するかが、学者たちにとって大きな挑戦となりました。

そんなある日、RECASTと名付けられた賢い神話の生き物が現れました。RECASTは、過去の地震の物語から次に起こる地震の時刻を予測する特別な力を持っていました。この力は、ニューラル時間点プロセスという魔法によって成り立っており、地震の古い物語がどのように未来に繋がるかを見出すことができました。

RECASTは、地震の物語が集められたカタログを用いて訓練を受けました。小さなサブリージョンの物語から、時間的ETASモデルという古の学者たちが用いていた方法と比べて、より正確な予見をすることができるようになりました。特に、地震の物語が豊かなカタログでは、RECASTの力は顕著に発揮されました。

しかし、RECASTの力を最大限に引き出すには、十分に多くの地震の物語が必要でした。サンハシント断層ゾーンの物語では、物語が少ない時は時間的ETASモデルがRECASTを上回ることもありましたが、物語が増えれば増えるほど、RECASTの予見の正確さは向上しました。

学者たちは、RECASTが持つこの新しい魔法によって、地震の予見が以前にも増して正確になることを期待しました。そして、彼らはRECASTの力を使って、地震の物語から学び、人々が未来の地震に備えられるように助けることができるようになりました。

そして、彼らは知りました。地震の物語は、ただ記録されるだけではなく、その物語から学び、未来を予見するための鍵であることを。RECASTと学者たちの共同作業により、地震カタログの豊かな物語は、人々を守るための力強い道具となったのです。

これが、RECASTと地震の学者たちの物語でした。