2024-02-27

論文要約：Machine learning for seismic exploration: Where are we and how far are we from the holy grail?

Machine learning for seismic exploration: Where are we and how far are we from the holy grail?

https://library.seg.org/doi/10.1190/geo2023-0129.1

Farbod Khosro Anjom1, Francesco Vaccarino2, and Laura Valentina Socco1

¹DIATI, Politecnico di Torino, Torino, Italy.

²DISMA, Politecnico di Torino, Torino, Italy.

https://library.seg.org/doi/10.1190/geo2023-0129.1

ライセンス　

CC BY 4.0 Deed | Attribution 4.0 International | Creative Commons

Machine learning for seismic exploration: Where are we and how far are we from the holy grail?
Abstract
Introduction
SYNTHETIC DATA SETS FOR SEISMIC APPLICATIONS
SEISMIC PROCESSING
SEISMIC ATTRIBUTES IN ML-BASED INTERPRETATION APPLICATIONS
SEISMIC INTERPRETATION
Lithologic interpretations
- Lithofacies classification
- Stratigraphic sequence identification
Petrophysics, rock physics, and inversion
- Impedance and elastic parameters
- 4D data
Disucussion
Conclusion

Abstract

目的: 地震探査における機械学習（ML）の応用が他の産業分野よりも速く成長していること、および地震処理と解釈のワークフローにおけるほぼ全てのステップにMLアルゴリズムが実装されている現状を、文献ベースで分析し、地震アプリケーションにおける主要なML推進の詳細な概観を導き出す。
手法: SEGとEAGEの文献リポジトリに公開された既存のMLベースの地震処理と解釈に関する文献分析を行い、各公開からML実装とパフォーマンスに関する様々なメタデータを抽出。
結果: 現在の地震探査におけるML実装は、処理と解釈のワークフローにおける画期的な変更ではなく、個々のタスクに焦点を当てていることが示された。MLアプリケーションの主なターゲットは、地震処理においてはノイズ除去、速度モデル構築、地震波初動のピッキングであり、地震解釈においては断層検出、岩石相分類、地体識別である。
結論: 計算能力の効率性、データ準備の簡易性、MLモデルの実データテスト率、ML方法の多様性などの指標を用いて、現在のMLベースの地震処理と解釈タスクの効率性、有効性、適用性を概算した結果、MLベースのノイズ除去と周波数外挿は効率が高く、MLベースの品質管理が他の処理タスクと比較してより効果的で適用可能である。解釈タスクでは、MLベースのインピーダンスインバージョンが高い効率を示し、断層検出に高い効果があり、MLベースの岩石相分類、層序の同定、岩石/岩石特性の逆転は他の解釈タスクの中で高い適用性を示している。

Introduction

地震処理と解釈は、専門家によって各データセットに合わせて、調整された一連の標準ステップを使用するワークフローに依存している。
最適な処理・解釈ワークフローは、常に進化する技術、科学的知識、技術的能力、才能、直感の混合によって構築される。
データセットの増大と、取得から納品までの時間を短縮する必要性、および他方で計算設備のパワーの増大が、業界と研究者にデータ駆動型メソッドの使用を非常に魅力的にしている。
機械学習（ML）メソッドは、入力と出力のデータ空間の間の複雑な関係を最適化することによってデータの処理と解釈を行う方法に依存し、物理現象のモデリングに対してしばしば無関心である。
MLは「最適化に基づく非常に広範な数値ツールに過ぎない（Alkhalifah,2022）」と定義され、従来のフーリエ変換などの変換や表現の代わりに、機械が特定の問題に対して調整された最適化を通じて独自の変換を開発する。
MLの導入の主な動機は、現在の技術や方法のいくつかの欠点（時間がかかる。人により結果が変わる属人性がある）を軽減することにある。
新しい発展を、地震探査における潜在的なHoly grail（究極の理想）として捉え、機械が効率的に最も有益なモデルを自動的に提供する。
地震探査におけるMLの実装には、関連する多くの課題があり、モデルと地震探査データの関係の複雑さは、ML技術で現在解決されているほとんどの問題とは比較にならない。また、他の分野からのMLモデルを地震処理と解釈のタスクに微調整すること（転移学習とも呼ばれる）は、ほとんど役に立たない。
地震探査においては、実際のデータのグラウンドトゥルースが存在しないため、最初からMLモデルを訓練することは、豊富なラベル付きデータに大きく依存している。
現在のML実装の状態は、主に従来のワークフローの処理または解釈ステップをより効率的で、効果的で、偏見のないものにすることに専念している。
過去10年間で、地震処理と解釈のための機械学習（ML）技術の使用が指数関数的に拡大しており、他の産業と比較してもそのペースは速い。

しかし、既存のMLベースの地震探査アプリケーションは効果的かつ効率的であるか？MLアルゴリズムは、従来の地震探査ワークフローを大きく変更し、中間ステップを迂回してエンドツーエンドのアルゴリズムを提供するか？
これらの重要な疑問に答えるために、本論文では地震探査の文脈における既存のMLベースのアプリケーションの明確なイメージを作成する。
2010年から2021年の間に、地震探査分野の主要な文献リポジトリ（SEGデジタルライブラリとEAGE EarthDoc）を検討し、500以上のMLベースの出版物を分析した。

ほとんどの出版物は、EAGE年次会議、SEG技術プログラム、およびGeophysicsからのものである。
出版物のメタデータを収集して分析し、対象となる地震処理/解釈タスクの種類、問題と解決策の次元性（一次元、二次元、または三次元）、実装されたMLモデルとそのアーキテクチャの特徴、最適化方法、データ形式とデータの条件付け、入出力のサイズ、訓練サンプルの数、属性特徴、計算能力要件、未知データへのモデルの一般化、訓練とテストデータの種類（合成および実データ）、および論文の種類、所属と企業の関与、合成データシミュレーション方法とシミュレートされたノイズ、訓練のためのデータ拡張などの基本的な出版情報に焦点を当てた。
重複を避け、EAGEおよびSEGに同じ著者から提出された類似の抄録とジャーナル論文は無視した。
出版物を処理と解釈のアプリケーションに分けた。この非常に一般的な表現から、いくつかの研究トレンドを推測することが可能である。
文書の半数以上（53%）が解釈アプリケーションに関連しており、これは同じ期間内の一般的な（MLベースおよび非MLベースの）研究焦点とは対照的である。2010年から2021年の間のEAGEおよびSEGのリポジトリによると、解釈に専念している出版物は全体の44%に過ぎない。
MLベースの解釈の実装の主な動機の一つは、タスクがコンピュータビジョンのものと似ていることである。さらに、解釈は人間の関与の観点から地震探査で最も時間を要する側面である。その結果、解釈タスクの自動化はML方法の実装のもう一つの動機となっている。
一方、処理ステップでは、大容量データ（生のプレスタック）が伝統的な処理ワークフロー内で多くのデータ駆動型の定量的な解析手法の開発につながっている。それにもかかわらず、速度モデル構築（VMB）のような処理ステップは通常、計算上非常に要求が厳しい。
処理タスクへのMLの実装は、通常、計算効率を向上させ、従来のものよりも高い精度を持つ競争力のある解決策を作成することを目指している。もう一つ注目すべき側面は、地震探査アプリケーションの研究と開発における探査会社からの大きな関心であり、これがこれらのアプリケーションの主な推進力となっている。
MLベースの処理アプリケーションのほぼ半数（47%）が直接、または企業との協力によって開発されているのに対し、MLベースの解釈アプリケーションにおける企業の関与は66%に増加している。

MLモデルの訓練において合成データが重要な役割を果たしているため、MLベースの地震探査に使用されている合成モデルと関連データの短い概要を提供する。
入力として適切な属性を使用することで、MLベースの解釈アプリケーションを強化できる。MLベースの解釈調査における属性の使用を調査し、属性選択に使用される重要な次元削減方法を説明する。
「議論」セクションでは、抽出可能な統計データと説明されたアプリケーションに基づいて、MLベースの処理と解釈タスクの現在の効率、適用性、および有効性を近似することを目指す指標を定義する。
MLとディープラーニングの用語と説明に関しては、非常に豊富な用語集とオンライン資料が利用可能である。用語とMLおよびディープラーニングアルゴリズムの簡単な説明にはGoogle Developerの用語集（Google, 2023）、MLの監視されたアルゴリズムと監視されていないアルゴリズムについてはscikit-learn（Scikit-learn, 2023）を推奨する。
ディープラーニングメソッドの詳細な説明には、Goodfellow et al. (2016)とAggarwal (2018)を、MLメソッドの包括的な説明には、Kroese et al. (2019)とKelleher et al. (2020)を参照することが推奨される。
地震学におけるMLメソッドの有用な概観は、MousaviとBeroza (2022)によって提供されている。MLとディープラーニングアルゴリズムの実装の観点からは、Kerasとscikit-learnプラットフォームのガイドラインを推奨する。

SYNTHETIC DATA SETS FOR SEISMIC APPLICATIONS

地震処理と解釈のためのMLの訓練段階での合成地震データセットの使用は、実データのラベリングが困難であること、ラベル付けされた実データに関連するバイアス、そして異なる地質設定を代表するオープンアクセスの現場データの欠如が理由で急速に増加している。
合成データセットは、デノイジング、周波数外挿、断層検出などのほとんどのアプリケーションで自動的または半自動的にラベル付けすることができる。合成データの数値モデリングにおけるバイアスを無視すると、合成ラベル付きデータはグラウンドトゥルースとして、結果としてバイアスのないデータと考えることができる。この仮定は、数値モデリングが既に多くの従来のワークフロー（例：全波形反転[FWI]やインピーダンスインバージョン）の一部であるため、妥当である。
しかし、合成ラベル付きデータのみで訓練されたMLモデルは、合成データと実データの分布の不一致により、実データセットに適用した際に性能が低下する可能性がある。Alkhalifah et al. (2022)は、この問題を解決し、実データにおけるMLモデルの性能を向上させる可能性がある、合成データと実データの間のギャップを埋めるためのドメイン適応（Domain Adaptation）原則を使用した戦略を提案している。
地震処理の問題では、通常、弾性/音響数値ソルバーからの生の合成データが考慮されるが、解釈ステップでは計算効率がはるかに高いため、1D畳み込みモデルの使用がより一般的である。
多くの現実的な合成モデルが文献で紹介されており、ほとんどの場合、オープンアクセスの生データも利用可能である。図4は、Marmousi I、Marmousi II、およびSEG Advanced Modeling Program (SEAM)モデルが、MLベースの地震処理と解釈アプリケーションで使用される合成モデルの約70%に相当することを示している。

SEISMIC PROCESSING

文献によると、地震処理の異なるステップでMLの使用が多様であり、特定の技術的問題は定期的にMLで対処されているが、多くの他の問題に対するMLの適用はまだ限定的である。
そこで、様々な処理タスクへのMLの適用に関する出版物を分析し、公開された例に基づいて、地震処理を前処理、処理、速度モデル構築（VMB）、およびPassive　Seismic調査の4つの主要カテゴリーに分けた。前処理とVMBは、デノイジング（22%）、トレース補間（11%）、生データからのVMB（14%）、FWIのための周波数外挿（6%）、最初のブレークピッキング（9%）、イベント分離（6%）、地面ロールを使用した近表面速度モデルの推定（6%）、品質管理（QC）（4%）に主に焦点を当てた、MLベースのアプリケーションの82%を占める。
異なるML方法の選択も考慮され、特定のタスクに最も使用されている方法を特定した。特定のタスクでは、畳み込みニューラルネットワーク（CNN）以外の方法の使用が無視できる処理ステップもあることが興味深い。
処理のために公開された全てのアプリケーションを分析し、サブカテゴリーとそのシェアを特定した。公開されたアプリケーションの例の中で、技術革新、効率およびMLモデル選択の観点から最も関連性の高いもの、および結果の意義を選択した。各処理ステップについて、以下で最も重要なアプリケーションと技術的な問題を説明する。

Preprocessing

Quality control

品質管理（QC）アプリケーションの多く、例えば異常トレース検出では、プレスタックの生データが考慮されるため、自動かつ迅速なアプローチの使用が非常に重要である。
MLベースのQCアプリケーション（図5の外側の円）は、主にノイズ認識（Farmani and Pedersen, 2020; Walpole et al., 2020）、異常トレースの識別（Damianus et al., 2020）、および誤った最初のブレーク検出（Duan et al., 2018）に焦点を当てている。ノイズ検出により、ノイズのみを認識するステップと、デノイジングを行うプロセスのことを意味する。
ノイズ検出は、分類と回帰の問題として扱われる。Martin et al. (2021)は、ラベル付けされた地震データの2Dパッチをデータの4クラス（すなわち、信号、信号とノイズ、ノイズ、マスク）に分類するためにCNN U-Netアーキテクチャを使用する。一方、Walpole et al. (2020)は、入力トレースのノイズレベルを定義する単一の出力ノードを持つCNN InceptionV3アーキテクチャを考慮する。異常トレース検出のML実装は、教師なし（Hou et al., 2019; Damianus et al., 2020）および教師あり（Vishwakarma, 2021）アルゴリズムを使用して実装されている。

Denoising

ノイズを除去する手法は多くの進歩を遂げているが、多くのパラメータ設定を含み、適切に選択されない場合、非効率である。しかし、MLベースのノイズ除去は地震以外の画像デノイジングで長い歴史がある（Elad and Aharon, 2006; Vincent et al., 2010; Chen et al., 2014）。
MLベースの地震探査データでのノイズ除去は、主にランダムノイズとグラウンドロールの減衰に焦点を当てている。
教師ありCNNノイズ除去モデルは、ランダムデノイジング（Wu et al., 2019b; Yu et al., 2019）、マルチプル除去（Wang and Nealon, 2019）、グラウンドロール減衰（Jia et al, 2018; Li et al., 2018a; Yu et al., 2019）、海洋データの地震干渉およびうねりノイズ除去（Slang et al., 2019; Brusova et al., 2021）に適用されている。
DnCNNアルゴリズムは画像デノイジングアプリケーションで非常に一般的であり、通常はノイズ（残差データ）が対象であり、クリーンデータではない（Zhang et al., 2017）。予測されたノイズをノイズのあるデータから差し引くと、地震イベントの詳細がよく保存される。
Generative adversarial network（GAN）モデルもランダムデノイジング（Alwon, 2018）とグラウンドロール減衰（Si et al., 2020）に定期的に使用され、通常は半教師あり方式で実装される。ただし、Ovcharenko and Hou (2020)は、GANモデルがトレース補間にはうまく機能するが、ランダムノイズ除去に関してはCNN（U-Netアーキテクチャ）がGAN（U-GANアーキテクチャ）よりも優れていることを示している。
教師なしデノイジングオートエンコーダー（DAE）モデルは、地震ランダムノイズのデノイジングに他の一般的な方法である（Liu et al., 2020a; Saad and Chen, 2020; Birnie et al., 2021; Gao et al., 2021）。DAEは、訓練データを意図的にノイズで汚染し、その後、汚染されたデータを有用な特徴にエンコードし、クリーンデータを再構築してランダムノイズを除去する特定のタイプのオートエンコーダーモデルである。
Saad and Chen (2020)は、DAEを合成データセットで教師あり方式で事前訓練し、その後、カスタマイズされた損失関数を使用してフィールドデータセットで教師なし方式で微調整する。このアプローチは自己教師ありトレーニングとも呼ばれる。彼らは、DAEがf-x特異スペクトル分析（SSA）（Oropeza and Sacchi, 2011）およびf-xデコンボリューション（deconv）（Canales, 1984）のベンチマークアルゴリズムと比較してデノイジングタスクで優れた性能を発揮することを示している。特に、DAEモデルはデノイジングプロセス中に有用な信号を他の2つの方法と比較してよりよく保存する。

Trace interpolation

現在、ランダムにまたは規則的に欠落しているトレースを回復することを目的としたいくつかの補間方法が存在する。これには、スパース変換法（Duijndam and Schonewille, 1999）、周波数空間フィルター法（Spitz, 1991）、ランク削減法（Trickett et al., 2010）が含まれる。それぞれの方法は、線形性、疎性、サンプリングの規則性などの特定の仮定の下で効率的である。
教師ありMLのデータ補間実装は、ラベル付けされたデータを自動的に準備できるため、他のMLベースの処理アプリケーションと比較してはるかに簡単である。通常、ショットギャザーからトレースをランダムまたは規則的に自動的に除去して入力データを作成し、完全なショットギャザーやそのパッチを出力として考慮する。
CNNはこれらのアプリケーションで最も一般的なモデルである（Mandelli et al., 2018; Wang et al., 2018a; Wang et al., 2019a; Zhang et al., 2020b）。Mandelli et al. (2018)は、CNNベースの補間器の結果を、10%、30%、50%のトレースが欠落している地震ショットギャザーフィールドデータセットに適用されたベンチマークの多チャンネルSSA アルゴリズム（Oropeza and Sacchi, 2011）と比較し、MLベースの結果の信号対雑音比（S/N）は、すべてのケースで平均して70%以上高かった。
地震データ再構築のための別の一般的なモデルはGANであり（Alwon, 2018; Chang et al., 2018; Garg et al., 2019; Ovcharenko and Hou, 2020; Wei et al., 2021a）、通常は半教師あり方式で実装される。Ovcharenko and Hou (2020)によるCNNとGANモデルの補間に関する比較は、ノイズの多いデータの弱いイベントを再構築する場合のGANの優れた性能を示唆している。
データ補間は、サポートベクター回帰（SVR）（Jia and Ma, 2017）、長短期記憶再帰ニューラルネットワーク（LSTM-RNN）（Kuijpers et al., 2020; Yeeh et al., 2020）、オートエンコーダー（Wang et al., 2020）、トランスフォーマー（Harsuko and Alkhalifah, 2022）の方法を使用しても行われる。Jia and Ma (2017)は、訓練の性能をさらに向上させ、再構築されたデータのS/Nを高めるために、データ駆動型タイトフレームと古典的なSVR アルゴリズムを組み合わせる。Harsuko and Alkhalifah (2022)は、地震データを処理するために事前訓練と微調整手順を含むトランスフォーマーモデルを作成する。彼らは、トレースの最初のブレークピッキングやデノイジングなど、さまざまな処理タスクに必要な特定のデータの有用な特徴を格納するために、自己教師あり方式でデータを事前訓練する。彼らは、自然言語処理からのマスク言語モデリングの概念を使用してMLモデルを事前訓練する。この文脈では、地震セクションは文として、トレースは個々の単語として扱われる。事前訓練されたモデルは、欠落しているトレースを再構築するだけでなく、下流の処理タスクのための有用な特徴を抽出することができる（ファインチューニングステージ）。

Event separation

MLベースの地震イベント分離タスクは、P波とS波の分離、回折、およびデブレンディングに焦点を当てている。従来のP波とS波の分離アルゴリズムは、遠方のオフセットでうまく機能するために正確な速度モデルを必要とする。
MLベースのP波とS波の分離では、CNN（Xiong et al., 2020）およびGAN（Wei et al., 2021b）ニューラルネットワークの枠組みにおいて、主に多チャンネル入力と出力が考慮される。入力チャンネルには、データの水平および垂直成分が含まれ、出力チャンネルには分離されたS波とP波が対応する。
従来の回折分離方法は、反射波と屈折波の異なる運動学的特性を利用し、反射データを分離しようとするが、データに残るノイズが回折データと同じレベルのノイズを持つことがあり、屈折を覆い隠す可能性がある。また、これらの分析モデルは計算上非常に高価である。最近、地震ギャザーから回折データを認識するためのMLアルゴリズムの使用に注目が集まっている。ほとんどのアプリケーションは、反射データと回折データを分離するためにCNNをスキームとする教師ありアプローチを使用する。GANモデルなどの半教師あり方法もこのタスクに一般的な方法である。
伝統的なデブレンディングには最適化されるべき多くのステップが含まれ、計算上非常に高価である。レビューされたすべてのMLベースのデブレンディングアプリケーションはCNNモデルを考慮し、生のショットギャザーを入力とし、デブレンドされた結果を出力として教師あり方式でモデルを訓練する。ブレンドデータの合成データシミュレーションが複雑であるため、ほとんどのアプリケーションは訓練段階で実データのみを考慮する。

Processing

地震処理は大きく自動化されており、その結果、この地震探査ワークフローの段階を対象としたMLアプリケーションは少数である。図5では、デコンボリューション、マイグレーション、スタッキングに焦点を当てたMLベースのアプリケーションの割合を示す。
Chen et al. (2019)とLu et al. (2019)は、地震ウェーブレットを推定するために多層パーセプトロン（MLP）を使用し、Xiao et al. (2020)は、スパーススパイクデコンボリューションを実行するためにCNNを検討する。ほとんどすべてのMLベースのマイグレーションアプリケーションは、最小二乗マイグレーション（Liu et al., 2020b）と最小二乗リバースタイムマイグレーション（Huang and Huang, 2021; Torres and Sacchi, 2021; Vamaraju et al., 2021）の実行に焦点を当てる。
Cheng et al. (2020)は、マイグレーションステップの前提条件を対象とし、成功したマイグレーションに必要なフレネル位置を見つけるためにCNNモデルを使用する。
スタッキングは既に完全に自動化され、計算上合理的なプロセスである。それにもかかわらず、スタックされるショットの数がS/Nを大幅に増加させ、地震画像を強化するのに十分ではない場合がある。スタッキング能力をさらに高めるために、Aharchaou et al. (2021)は、ポストスタックデータの類似した小さなパッチを見つけ、これらのパッチをスタックして地震画像を強化するCNNモデルを開発する。
別の観点から、スタッキングは時間解像度の問題と見なされ、データの高周波数を回復することによって地震画像を強化することができる。Halpert (2018)とZhang et al. (2019)はGANモデルを、Choi et al. (2021)はCNNモデルを使用し、Yuan et al. (2021)は高周波データを回復するために順次CNNスキームを検討する。前者の3人の著者はポストスタックマイグレーションデータを入力として考慮しているが、Yuan et al. (2021)は生データの高周波数を回復することを目指している。

Velocity model building
Frequency extrapolation

低周波データはFWIの性能を大幅に向上させ、サイクルスキッピングを軽減することができる。最近、低周波データを回復するための重要な研究が行われており、エンベロープ計算法（Wu et al., 2014）、位相追跡法（Li and Demanet, 2016）、指数減衰法（Choi and Alkhalifah, 2015）に分類される。
これらのアプローチは、高周波と低周波の間の本質的な関係を利用していない。周波数外挿のタスクに対して、MLベースのアプリケーションが注目を集めている。訓練データは、フルバンド幅データにローカットフィルターを適用することで自動的に生成される。
ほとんどのMLベースの周波数外挿アプリケーションはCNNモデル（Kazei et al., 2019; Ovcharenko et al., 2019; Fang et al., 2020; Sun and Demanet, 2020）を考慮しており、RNN（Fabien-Ouellet, 2020）や物理に基づいたニューラルネットワーク（Hu et al., 2020）などの他のスキームはまれに使用される。
既存のアプリケーションは、MLアーキテクチャへの入力データのさまざまな革新的な表現を使用する。Ovcharenko et al. (2019)は、周波数外挿を対象周波数のスペクトル値の推定として扱う。彼らは、入力周波数よりも低い単一の周波数のスペクトル値を推定するために、34個の離散周波数でのスペクトルの実数値と虚数値を入力として考慮する。外挿されたデータにFWIを実行すると、低周波成分が初期モデルの大規模な誤差の修正と反転の収束に大きく役立ったことが示された。
このアプローチの問題点は、各周波数回復に対して別々のMLモデルを訓練する必要があることである。Sun and Demanet (2020)は、CNNスキームの入力と出力として、それぞれ高周波要素のみを持つ単一トレースとフルバンド周波数要素を考慮する。Fang et al. (2020)は、入力として高周波要素を持つ生データの2Dパッチと、出力としてフル周波数バンドのパッチを使用する。彼らは、合成SEG/EAGEオーバースラストモデルと実地データの両方で周波数外挿とFWIをテストし、CNNモデルからの外挿されたデータのFWIが、高周波データを使用した場合と比較して層の連続性が向上した。Ovcharenko et al. (2022)は、同様のアプローチを使用して、実際の海洋ストリーマーデータで2.5 Hzまでの地震データを推定し、FWIを実行することができる。

VMB from raw data

最近、生の発振データからの速度モデル構築（VMB）に対するMLベースのアプローチが注目を集めており、FWIに代わるMLモデルを提供することを目指している。これらのMLモデルの入力は発振ギャザーであり、出力は速度モデルである。
実データセットの正解となる速度構造モデルが存在しないため、すべての教師あり実装は訓練段階で合成データセットを使用する。最も人気のあるアプリケーションでは、入力の生データと目標の速度モデル間の非線形関係をモデル化するためにCNNとMLPスキームが使用される（Lewis and Vigh, 2017; Araya-Polo et al., 2018; Yang and Ma, 2019; Kazei et al., 2020; Li et al., 2020）。
これらのアプリケーションでは、目標と推定される速度モデル間の損失を計算することによって、MLモデルのパラメータが反復的に更新される。深層GANアルゴリズムも、豊富なラベル付きデータの可用性の限界に対処するVMBタスクに適用される（Mosser et al., 2018）。
Araya-Polo et al. (2019)は、少数の変数を使用して任意の速度モデルを生成し、それに対応する地震データを有限差分アルゴリズムを使用して計算するためにGANモデルを訓練する。Yao et al. (2023a)は、各反復での更新を制約するために、異方性FWIの感度を増加させるためにGANを使用する。
物理に基づくアプローチでは、MLベースのモデルで地震波場の物理を考慮し、シミュレートされた真の地震データ間の損失を計算し、モデル-データ関係に物理的制約を課すことによって、MLモデルの訓練セットへの依存を減らす（Costa Nogueira Junior et al., 2019; Xu et al., 2019; Jin et al., 2020; Sun et al., 2021）。
フィジックスインフォームドニューラルネットワーク（PINN）は、物理問題を支配する偏微分方程式を近似することができる特定のタイプの物理ベースのニューラルネットワークであり、VMBので使用されはじめている（Costa Nogueira Junior et al., 2019; Xu et al., 2019; Jin et al., 2020; Voytan and Sen, 2020; Rasht-Behesht et al., 2022）。

First-break picking

トラベルタイムトモグラフィーによく使用されるファーストブレーク（地震初動）ピッキングは、複雑な近表面をイメージングし、対応するスタティックスを計算するための地震探査ワークフローの重要なステップである。多くのデータ駆動型の半自動アプローチが導入されており、トレースの様々な特徴を考慮して最初の到達波をピックする。
ファーストブレークピッキングは本質的に二項問題である。ほとんどのMLベースのアプリケーションでは、単一のトレースではなく、地震データのパッチが入力として考慮され、出力ラベルは入力と同じサイズの2Dマトリックスであり、最初の到達波前の記録データ（ノイズ）とデータを分離するセグメンテーションマスクを表す。
他のアプリケーションでは、単一トレースまたはトレースセットの特徴（例：短期平均[STA]、長期平均[LTA]、フーリエ変換）が入力として使用される。稀なアプリケーションでは、単一トレースの小ウィンドウが入力として考慮され、出力ラベルには窓にファーストブレークが含まれている場合は1、そうでない場合は0が含まれる。
ほとんどのMLベースのファーストブレークアプリケーションは、CNNモデルのスキームで実装されている。CNNベースのファーストブレークピッキングモデルは、従来のSTA/LTA自動アルゴリズムと比較して優れた性能を示している。CNNは急な高度差が存在する場合でもファーストブレークピッキングに非常に効果的であるが、S/Nが低いデータの部分では挑戦的であることが示されている。他のアルゴリズム、例えばSVRやLSTM-RNNのファーストブレークピッキングへの適用は限られている。

VMB from groundroll

地表波、またはグラウンドロールは、陸上地震データで支配的であり、近表面についての貴重な情報を含んでいる。地表波の分散曲線は、f-v、f-k、τ-pなどのスペクトルドメインで手動でピックされ、これらの分散曲線は個別にまたは同時にさせ、近表面のS波速度モデルを取得し、稀なケースではP波速度モデルも取得する（Socco and Comina, 2017）。
しかし、大規模な現場データの場合、分散インバージョン曲線の手動ピッキングは非現実的になる可能性がある。さらに、分散曲線のインバージョンは強く非線形な問題であるため、インバージョンは事前の情報やハイパーパラメータの校正を必要とし、大局的最適解に収束する現実的なモデルを導くことが求められる。
ほとんどのMLベースの分散曲線ピッキングアルゴリズムは、DBSCAN、K-means、PCA、またはこれらのアルゴリズムの組み合わせなどの教師なしアルゴリズムを使用して自動的にピックされた分散曲線を微調整することに焦点を当てている（Masclet et al., 2019; Kaul et al., 2020; Rovetta et al., 2020; Yao et al., 2021）。
より洗練されたML実装では、データの周波数-波数表現が入力として使用され、分散曲線を表すマスクがCNNモデルの出力として考慮される（Kaul et al., 2021b; Ren et al., 2021）。稀だが革新的なアプローチでは、分散ピッキングステップを迂回し、周波数-波数ドメインの生の地表波データからS波速度モデルを推定することを目指している（Yablokov and Serdyukov, 2020; Aleardi and Stucchi, 2021）。

Passive seismic data

光ファイバー分散音響センシング（DAS）の成長に伴い、受動的モニタリングデータの取得が大幅に促進され、完全に自動化されたデータ駆動型の信号検出およびイベント位置検出アプローチの開発が必要とされている。現在のMLベースの受動地震データタスクに関する包括的な概観は、Anikiev et al. (2023)で見ることができる。
ほとんどのMLベースの受動信号検出方法では、CNNモデルが考慮される（Binder and Chakraborty, 2019; Stork et al., 2020; Rajeul, 2021）。これらのアプローチでは、通常、地震データのパッチが入力として作成され、バイナリーラベルの出力がマイクロ地震信号を含むかどうかを定義するために考慮される。
Binder and Chakraborty (2019)は、シミュレートされたDASデータと実際のDASデータのパッチの組み合わせを使用して信号の時間ウィンドウを検出するCNNモデルを訓練する。訓練されたモデルを実際のDASデータに適用した結果は、STA/LTAメソッドと比較して優れた結果を示した。
受動イベントの位置を特定することに焦点を当てた別のグループのMLベースのアプリケーションもある。マイクロ地震イベントの位置を特定するためのMLモデルのほとんどは、CNNモデルを考慮している（Rodriguez, 2021; Wang and Alkhalifah, 2021; Wang et al., 2021）。Wang and Alkhalifah (2021)は、イベントを検出するための1つのCNNモデルと、地震イベントの位置を特定するための別のCNNモデルを使用する。同様のモデルを使用して、Wang et al. (2021)は、訓練されたモデルを頁岩ガスプレイの水圧破砕プロセス中に記録されたデータに適用する。従来のリバースタイムイメージングとの結果の比較は、より速い予測と同様の精度を示した。Gu et al. (2019)は、ベイジアンCNNを考慮し、MLベースの地震位置推定の不確実性を定量化するために確率的正則化技術を実装する。

SEISMIC ATTRIBUTES IN ML-BASED INTERPRETATION APPLICATIONS

サイスミックアトリビュートは、地震データの数学的操作によって得られ、様々な物理的、岩石物理学的、地質学的特性を強調することを目的としている。各属性は通常、地震データの特定の特性を強調するために定義される。その結果、多くのサイスミックアトリビュートが年月を経て定義され、様々な解釈タスクの改善に役立っている（Chopra and Marfurt, 2007）。
多くのMLベースの方法、例えばエンコーダー・デコーダーアーキテクチャは、類似の戦略に従っている。これらの方法の訓練段階では、エンコーダーは入力データ（地震データ）を有用で情報に富み、コンパクトな中間特徴にエンコードするために訓練され、デコーダーはこれらの中間特徴を使用して結果（解釈タスク）を予測するために訓練される。
処理された地震データの代わりに適切なアトリビュートを入力データとして考慮すると、MLモデルの性能が大幅に向上し、訓練時間が短縮される可能性がある。適切なアトリビュートの使用を強調する理由は、(1) すべてのアトリビュートが目標解釈タスクに関する情報に富んでいるわけではない、(2) 相関的なアトリビュートの使用はMLモデルを大きくバイアスする可能性がある、(3) 地震データの代わりに複数のアトリビュートを入力として使用すると、メモリ要件が大幅に増加するためである。
アトリビュート選択アルゴリズムは、データ空間の次元を相関が低減された有用なアトリビュートに減少させる。したがって、アトリビュート選択のプロセスは、アトリビュートベースのMLベースの解釈アプリケーションにおいて重要な役割を果たす。
現在のアトリビュートベースのML地震解釈アプリケーションの半数以上が、アトリビュートを選択する基準の欠如に悩まされている（下図）。PCAは、アトリビュート空間の次元削減に最も一般的な方法である。ランダムフォレスト、確率的ニューラルネットワーク（PNN）、ガウス混合モデル（GMM）、最大係数混合などの他の方法も、有用な情報を無視することなくアトリビュート空間の次元削減に有望な結果を示している。Zhao et al. (2015a)は、アトリビュート選択のための様々な教師なしアルゴリズムの包括的なレビューと比較を提供している。

SEISMIC INTERPRETATION

文献によると、ML方法は地震解釈タスクに広く適用されている。これは、コンピュータビジョンのML方法が地震解釈タスクに適応可能であることと、これらのタスクの自動化の必要性があるためである。構造解釈、岩石学的解釈、および岩石/岩石物理特性の推定の3つの主要なカテゴリーの枠組み内で出版物を分析した。それぞれが多くのアプリケーションを含む（下図）。MLの実装は主に断層検出（23%）と岩石相同定（22%）に焦点を当てている。
CNNアルゴリズムは、地震処理および解釈タスクに一般的に使用される（図6および11）。それにもかかわらず、地震解釈タスクにはより多様なアルゴリズムが利用されている（図11）。この側面は主に、広範囲の教師ありおよび教師なしアルゴリズムが考慮されている岩石相分類アプリケーションで観察される。それにもかかわらず、CNNはまだほとんどのアプリケーションで最も一般的なモデルである。

Structural interpretations

構造解釈は、解釈者のドメイン知識と経験に大きく依存する、非常に主観的なタスクである。以下のセクションでは、断層検出、塩類および地質体の同定、地平線ピッキングの3つの主要な構造解釈アプリケーションに焦点を当てたMLの実装について検討されている。

Fault detection

ほとんどのMLベースの断層検出実装は教師あり方式であり、稀に半教師あり方式で行われる。教師ありCNNとMLPは、MLベースの断層検出における人気のある技術である。他の一般的な方法としてSVMがある。一般的でない他のアプリケーションでは、GANアルゴリズムが使用される。
不確実性の定量化は、断層検出などの解釈アプリケーションにおいて重要なタスクである。不確実性は、アレートリック不確実性とエピステミック不確実性に分けられる。ベイズCNNは、これらの不確実性を定量化するためにベイズ原理に基づいた確率論的MLモデルである。
断層検出は常に断層または非断層の二項問題として扱われる。地震データのパッチはさまざまな方法でMLモデルに導入される。一部のアプリケーションでは、地震属性をML実装のための入力として手動で選択する。属性は、それらの間の相関を排除し、データ空間と計算能力の要件を減少させる基準に従って選択される

Horizon picking

多くの従来のホライゾンピッキングアルゴリズムと同様に、MLベースの方法もホライゾンを追跡するためにシードポイントを考慮する（Peters et al., 2019; Shi et al., 2020; Ferdinand Fernandez et al., 2021）。これらのアプリケーションでは、ML実装の目標は、未知のデータに適用できるグローバルモデル（GM）を得ることではない。対照的に、信頼性のあるシードポイント（ラベル）が入力トレースに関連付けられ、訓練データとして使用される。残りのデータはその後、ホライゾンを予測するためにMLモデルに挿入される。
いくつかのアプリケーション（例：Wu and Zhang, 2019; Guillon et al., 2020）では、訓練データがセグメント化され、さまざまな地平線のためのシードポイントを得る。ほとんどのMLベースのホライゾンピッキングはCNNモデルを使用する。
予測に関連する地平線の確率を定量化するために、Siahkoohi et al. (2020)はベイジアンCNNを検討する。Shi et al. (2020)は、切り取られた短波形をエンコードされた潜在空間にエンコードするために、教師なしのオートエンコーダーモデルを検討する。その後、既知のシードポイントと比較して類似の特徴ベクトルを持つ波形パッチがホライゾンとして識別される。

Salt and geobody identification

MLアプリケーションでは、地質構造検出問題はホライゾンピッキング（Gramstad and Nickel, 2018; Kaul et al., 2021a）およびセグメンテーション問題（Waldeland and Solberg, 2017; Shi and Wu, 2019; Di and AlRegib, 2020）として扱われる。前者のアプリケーションでは、前セクションで説明された原則を使用して、ソルトの上部と下部の地平線をピックする。対照的に、セグメンテーションアプローチは、地震データおよび/または地震属性の各ピクセルをソルトまたはソルト以外のカテゴリに分類することを目指す。
地質体（ソルト）識別のためのほとんどのアプリケーションはCNNネットワークを考慮している（Gramstad and Nickel, 2018; Wang et al., 2018b）。Di and AlRegib (2020)は、ソルトの予測においてCNNモデルとMLPの効率を比較し、CNNモデルの方がはるかに効率的であり、サイスミックアトリビュートなしでも信頼性のある結果を提供できると結論付ける。
Waldeland and Solberg (2017)は、地震スタックデータの小さなキューブ（65 × 65 × 65）を入力として考慮する。彼らは3つの畳み込み層と平均プーリングを使用してキューブから40の特徴（属性）を抽出し、その後、分類のための一連の従来の全結合層に続く。一般的なニューラルネットワークアプリケーションが問題に非線形性を含めるためにReLUオペレータを考慮するのとは対照的に、彼らは学習段階を特定の条件下で加速できるELUオペレータを使用する。
この調査では、ノルウェー大陸棚データセットの単一セクション上でデータをトレーニングし、残りのデータにラベルを付けるためにそれを使用する。図bと下図ｃは、それぞれ訓練セクションとテストセットからのソルトの例を示している。エピステミックおよびアレートリック不確実性に対処するために、Mukhopadhyay and Mallick (2019)およびZhao and Chen (2020)は塩類を識別するためにベイジアンCNNアルゴリズムを考慮する。

Lithologic interpretations

Lithofacies classification

岩石ファシスの手動解釈者は通常、専門家であり、他の人が識別できない有用な特徴を検出する。これらの専門家は、地震断面図と様々なアトリビュートを利用して岩石ファシスを識別する。しかし、大規模なデータセットが考慮される場合、手動アプローチは非常に費用がかかり、時間がかかる可能性がある。
代わりに、多くの教師なし、教師あり、半教師ありのMLベースのアルゴリズムがファシス分類のために導入されている。MLベースのファシス分類においてアトリビュートを使用することは非常に一般的である。約66%が、地震振幅の有無にかかわらず地震アトリビュートを入力として考慮している。
アトリビュートベースのアプリケーションの38%が、既に利用可能なアトリビュートを考慮するか、ファシス分類のために適切な属性を手動で選択する。残りのアプリケーションは、PCA、ラッパー分析、PNN、遺伝的アルゴリズム、最大情報係数、段階的回帰法、GMMなどの基準を考慮して、最も適切なアトリビュートを選択する。
地震相分類のためのMLベースのモデルは通常、データセットの岩石学が大きく異なる可能性があるため、単一のデータセットに特化して訓練される。CNNアルゴリズムはファシス分類のための最も一般的な教師あり方法である。Zhang et al. (2021)は、従来のCNNとU-Net、DeepLabv3+エンコーダーデコーダーアーキテクチャを比較し、エンコーダーデコーダーアーキテクチャがより一貫した結果を提供し、その中でもDeepLabv3+がより正確であることを示している。
U-Netのエンコーダーデコーダーアーキテクチャに似て、Alaudah et al. (2019)は、地震スタックデータのパッチを入力とし、岩石ファシスを出力として提供する（入力と同じサイズ）オープンソースモデルを開発した。Salvaris et al. (2020)は、複数のアーキテクチャ（U-Net、SEResnet、HRNet）に基づくMLベースの地震分類アルゴリズム（DeepSeismicと呼ばれる）を開発し、オンラインで利用可能である。
他の教師ありファシス分類アプリケーションでは、SVM、MLP、RNN、PNN、ランダムフォレストが考慮される。Zhao et al. (2015a)は、SVMと人工ニューラルネットワーク（ANN）の適用を比較し、SVMによるファシスの分類がより正確であるが、はるかに高い計算コストがかかることを示唆している。
他の地震アプリケーションとは異なり、MLベースのファシス分類は一般的に教師なし方式（33%）で実装される。その中で、自己組織化マップ（SOM）、K-means、生成的トポグラフィックマップ（GTM）が一般的に使用される。SOMは、高次元データ空間を削減し、データ内の類似パターンを分類するデータ可視化技術である。
教師なしのアプローチとして、Qian et al. (2018)はオートエンコーダーの教師なしニューラルネットワークを使用してデータの潜在空間の特徴を抽出し、オートエンコーダーからの特徴をクラスタリングするためにK-meansの教師なしアルゴリズムを使用する。Zhao et al. (2015a)は、教師なしアルゴリズム（PCA、K-means、SOM、GTM）と教師ありアルゴリズム（ANN、SVM）の4つのパフォーマンスを比較し、K-meansが最も単純で適用しやすいMLベースのアルゴリズムであることを結論付ける。
半教師ありファシス分類スキームは稀に実装され、ほとんどがGANに基づいている。Singh et al. (2021)によるGANとCNNのパフォーマンスの比較は、ラベル付きデータが豊富な場合、CNNモデルがより正確な結果を提供するが、限定されたラベル付きデータが利用可能な場合、GANが好ましく、より正確であることを示唆している。

Stratigraphic sequence identification

MLベースの岩石相分類と同様に、MLベースの層序列識別は通常、単一のデータセット上で実装され、同じデータの一部を使用してモデルを訓練する。ほとんどのMLベースの層序列推定はCNNモデルを使用する（Huot et al., 2019; Li et al., 2019; Di et al., 2020）。
Di et al. (2020)は、教師なしオートエンコーダーと教師ありCNNネットワークから成るMLネットワークを検討する。オートエンコーダーは、教師ありCNNモデルへの入力となるデータから多くの特徴を抽出する。彼らは出力ラベルを作成するために3つのシナリオを考慮する：(1) 1D層序プロファイル、(2) 入力と同じサイズの層序の2Dパッチ、(3) 目標地震シーケンスを強調するペイントブラシラベル。ペイントブラッシュアプローチは、解釈者が地震データセット内の任意の関心領域に注釈を付ける柔軟性を与える。
他の教師あり実装では、Li et al. (2018b)とKuroda et al. (2016)がそれぞれRNNとMLP アルゴリズムを検討する。教師なしアルゴリズムの中では、DBSCAN（Corlay et al., 2020）とSOM（Laudon et al., 2019）も層序列識別に使用される。Bugge et al. (2019)は、地震データの小さなキューブごとに属性ベクトルを計算し、DBSCANアルゴリズムを使用してそれらを層序列にクラスタリングする。

Petrophysics, rock physics, and inversion

MLアルゴリズムは、様々な岩石物理および岩石特性の推定に使用される。MLは主に、孔隙率、密度、脆性、VP/VS、Vshale/Vclayの推定に焦点を当てている。多くの実装では、同じMLアーキテクチャが様々な岩石物理および岩石特性の予測に別々に訓練される。
MLでは、通常、処理された地震データまたは対応するアトリビュートが入力として考慮され、ウェルログデータが望ましいターゲットとして使用される。岩石相識別と同様に、ほとんどのアプリケーションは手動または実験的に選択されたサイスミックアトリビュートを利用する。
一部の出版物では、遺伝的アルゴリズム、多重線形回帰、勾配ブースティング、PCAなどの様々な方法を使用してアトリビュート空間からアトリビュートを選択する。ほとんどのアプリケーションは、CNNモデルを特性の推定に使用する。
教師あり方式で実装される他のCNNアプリケーションとは異なり、Feng et al. (2020)は、モデルが低周波の事前孔隙率に追加される高解像度の孔隙率を推定することを目的とした教師なしCNNスキームを開発する。Choi et al. (2020)とMosser et al. (2020)は、それぞれ密度とVP/VSの推定のための不確実性を定量化することを可能にするベイジアンCNNを検討する。
SVR、MLP、PNNを使用した岩石物理および岩石特性推定のいくつかの例が存在する。Zhao et al. (2015b)は、接近支持ベクター回帰の枠組みで脆性指数を推定するために手動で選択された5つのアトリビュートを考慮する。別の実験では、Ore and Gao (2021)は、脆性を推定するためにMLP、SVR、勾配ブースティングの性能を比較し、勾配ブースティングが他の2つと比較して優れた結果を提供した。

Impedance and elastic parameters

MLベースのアプリケーションは、弾性インピーダンスの推定よりも音響インピーダンスの推定（71%）に焦点を当てている。一部のMLは、弾性特性に焦点を当て、Connolly (1999)によって定義された弾性インピーダンスの取得を目指しているが、残りはS波速度、P波速度、密度などの弾性パラメータの推定を目指している。
ほとんどのMLベースのインピーダンス推定方法は、アトリビュートではなく、プリスタックまたはポストスタックの地震データを入力として考慮する。MLベースのインピーダンス推定は通常、岩石物理および岩石特性の推定と結びつけられ、単一のMLネットワークまたは別々のネットワークで実装される。
インピーダンスインバージョンは通常、CNNアルゴリズムの枠組みで実装される。Das and Mukerji (2020)は、ベイジアンフレームワークで2つのCNNネットワークを持つカスケードCNNを検討する。最初のネットワークは地震データを入力とし、音響インピーダンスとVP/VSを提供する。第一のネットワークの出力は、孔隙率とシェール体積を推定する第二のCNNモデルへの入力として使用される。
従来のCNNと物理ガイド付きCNNの性能を弾性パラメータの推定において比較する。物理ガイド付きフレームワークは教師なし方式で実装され、モデルの出力は自動的に合成された地震データの生成に使用され、入力データと比較される。
他のCNNベースの作業では、Das et al. (2019)とChoi et al. (2020)がそれぞれ音響インピーダンスと弾性特性の推定の不確実性を定量化するためにベイジアンCNNを使用する。cGANモデルは音響インピーダンス推定に非常に効果的であることが示されている。Cai et al. (2020)の合成テストは、従来のcGANと比較して、Wasserstein損失関数と勾配ペナルティ損失を持つcGANの方が性能が優れていることを示唆している。

4D data

4Dデータ処理のためのMLの一部は、圧力、水、およびガス含有量の変化を同じMLアーキテクチャ内で推定することを目指している（Dramsch et al., 2019; Côrte et al., 2020; Alali et al., 2022）。他のアプリケーション、例えばXue et al. (2019)では、水分含有量の変化のマッピングのみに焦点を当てる。
Kaur et al. (2020)は、貯留層における炭素貯蔵の枠組みで4DデータからのCO2飽和度をモニタリングするためにGANモデルを使用する。ほとんどのMLベースの4Dデータ処理は、ディープニューラルネットワーク（Côrte et al., 2020）およびCNN（Weinzierl and Wiese, 2020）を考慮している。
Xue et al. (2018)は、水分含有量の変化を予測するために、4D属性、孔隙率、ネット・トゥ・グロス、および水分含有量のベースラインを入力として考慮する。MLPとランダムフォレスト、決定木、SVRなどの他の多くのMLアルゴリズムの性能を比較し、MLPとランダムフォレストが最高の精度を提供することを示唆している。
タイムラプスデータの従来のFWIでは、逆問題に井戸データを組み込むことが重要である。Li et al. (2021c)は、FWIの解像度を向上させ、精度を高めるためのMLP支援正則化技術を開発する。Babalola (2019)は、水分含有量と圧力の変化を推定するために混合密度ニューラルネットワークを考慮する。

Disucussion

各地震タスクに対する現在のML実装の効率、適用性、および有効性を評価するために、出版物から収集した統計データから抽出できるパラメータに基づいて特定の指標を定義する。データ準備の簡便さ（DPS）と計算能力要件をMLの効率の指標として考慮する。また、実データテストの割合（RDT）と未確認データに対するGM（グローバルモデル）推定の割合を適用性の指標として考慮する。最後に、効果の指標として多様性指数（DI）を考慮する。以下で、これらの指標について詳細に説明する。指標を定義するために、出版物で利用可能な情報のみを使用した。これにより分析に大きな制約が生じた。なぜなら、効率、適用性、および有効性の理想的な指標となり得たいくつかのパラメータは、情報の欠如のために無視せざるを得なかったからである。例えば、提案されたML実装の適用性を評価するために重要な指標は精度である。それにもかかわらず、多くの出版物は精度の定性分析のみを含み、定量分析を実施したものは特定の指標を使用していたため、統計情報を引き出すことが不可能であった。
一般的に、アプリケーションに応じて、生データ、プレスタック/ポストスタックマイグレーションデータ、およびサイスミックアトリビュートが入力として使用される。マイグレーションデータは1D畳み込みモデルを使用してシミュレートできる。結果として、我々はDPS指標に合成マイグレーションデータに対して3（最も簡単）の値を割り当てた。生データは通常豊富に利用可能であるが、生データの合成シミュレーション（有限差分および有限要素）にはかなりの計算能力が必要である。その結果、生（プリスタック）データを要求するアプリケーションにDPS指標の値を2（中程度）として割り当てた。アトリビュートは、合成スタックセクション/キューブから計算できる。それにもかかわらず、多くのアトリビュートが定義されており、アトリビュート空間を減少させるための基準が考慮されるべきである。そのため、適切なアトリビュートを選択するための追加のステップを必要とするアプリケーションにデータ準備指標の値を1（最も困難）として割り当てた。MLの処理および解釈タスクごとにnの出版物がある場合、平均DPS指標を次のように計算する：

計算能力要件の近似は非常に困難である。なぜなら、出版物で公開される情報が非常に限られているためである。MLモデルの計算能力要件の重要な指標は、訓練可能なパラメータの数である。それにもかかわらず、モデルのアーキテクチャについては出版物から多くの情報が得られず、結果として多くの出版物で訓練可能なパラメータの数に関する情報が欠如していた。
代わりに、訓練サンプルの数に関する統計データや入力と出力データの次元に関する情報が利用可能であった。一般に、これらのパラメータは訓練可能なパラメータの数と計算要件とよく相関する。これらのパラメータを使用して計算能力効率（CPE）を定義する：

ここで、はそれぞれMLモデルで使用されるピクセルの数としての入力および出力データの次元であり、Ni
$�_{�}$ はアプリケーションで考慮される訓練サンプルの数である。もちろん、出版物から抽出可能なメタデータに基づいて定義されたCPEは、アプリケーションの計算要件を完全に反映しているわけではないが、それの適切な代理である。
MLベースのアプリケーションの適用性を測定するために2つの指標を考慮する。最初の指標では、MLモデルを評価するためにRDTを考慮した出版物の割合を計算する。2番目の指標では、未確認のデータセットを処理するためのGMを提供することを目的とする出版物の割合としてGM比率を考慮する。これらのモデルは、実データの一部を訓練データとして使用して、各実データに対して別々に訓練されるものとは対照的である：
単一の地震アプリケーションに対して実装されたMLアルゴリズムのDIを、その効果の指標として考慮する。Simpson DI（Simpson, 1949）を次のように与える：

ここで、 $�$ はアプリケーションに使用された各アルゴリズムの指数（例：CNNおよびGAN）、 $�_{�}$ はこのアルゴリズムが使用された回数（出版物）、 $�$ は地震タスクに対して考慮された出版物の総数である。DIは一般に、効率の完全なビューを提供するために精度の測定値とともに分析されなければならないことを強調したい。それにもかかわらず、出版物からの統計データはこの分析で現実的に使用されるには不十分であった。
処理および解釈タスクの間で区別しながら、すべての指標をゼロから一の範囲で正規化する。例えば、処理タスクのDI（ $� �_{�}$ ）を次のように正規化する：
表1および表2では、それぞれ処理および解釈アプリケーションの計算された指標の結果を報告する。アトリビュートまたは特徴は、地震処理アプリケーションにはほとんど使用されない。トレース補間、周波数外挿、ローデータからのVMB、およびファーストブレークピッキングには、ローデータのみが考慮される。その結果、これらのアプリケーションは最低のDPS指標を持つ。
対照的に、デノイジングMLベースのアプリケーションは定期的にローデータおよびマイグレーションされた地震データに適用され、処理アプリケーションの中で最高のDPSをもたらす。それにもかかわらず、デノイジングには高い計算能力（低いCPE指標）が必要である。ローデータからのVMBは、ローデータから直接弾性特性を提供するために多くの伝統的な地震アプリケーションステップを迂回する非常に興味深いアプリケーションである。それにもかかわらず、ほとんどのアプリケーションが合成テストのみを考慮しているため、まだ理論的な段階にある（低RDT）。QCは、高いRDT、GM、およびDI指標を持つが、訓練段階で高い計算能力を要求する最も有望なアプリケーションの1つである。
解釈アプリケーションの中で、MLベースのホライゾンピッキング、インピーダンスインバージョン、および断層検出は主に地震スタックセクション/キューブを考慮し、岩石相分類や岩石物理および岩石特性の推定などの他のMLベースの解釈アプリケーションと比較して高いDPSをもたらした。これらは地震アトリビュートに依存している。
それにもかかわらず、ホライゾンピッキングと断層検出は、計算要求が高い解釈MLベースのタスクであり、低いCPEを持っている。対照的に、MLベースの岩石物理および岩石特性は、低いDPSにもかかわらず、他の指標で非常に高いランクを占め、最も有望なMLベースの解釈アプリケーションの一つである。
ただし、これらのアプリケーションの低いCPEは、岩石物理および岩石特性に対する利用可能なログデータ（ラベル付きデータ）の限られた量にも原因があることに注意すべきであり、より包括的な分析のためには精度のさらなる評価が必要である。一方、断層検出の低いDIは、数多くの定量的および定性的な測定によって評価された断層検出のためのCNNモデルの集約に主に起因している。さらに、多くの断層検出CNNベースのオープンソースモデルが利用可能であり、未確認のデータによってテストすることができる。

Conclusion

MLアルゴリズムは、地震処理および解釈のほぼ全段階に積極的に適用されている。現在のML実装の状態は、個々の処理および解釈タスクの自動化において顕著な成果を示しており、時には従来の方法と比較してさらに良い結果をもたらすことがある。
従来の地震探査ワークフローの中間プロセスを迂回することを目指す数少ない試みを除き、ほとんどのMLベースのアプリケーションは、従来の探査ワークフローに沿った個々の処理および解釈タスクの効率と効果を向上させることに焦点を当てている。
この段階では、MLベースの地震探査はまだ究極の目標であるローデータをアルゴリズムに提供し、地下モデルおよび岩石/岩石物理特性を得るという聖杯には到達していない。それにもかかわらず、自動運転や自然言語処理など他のセクターにおけるML実装の進化は、エンドツーエンドの包括的なMLモデルに到達するためには、個々のMLベースのタスクの開発が不可欠であることを示している。
MLベースの地震探査に関する研究は、その開発の初期段階にあると信じられている。聖杯に到達するにはさらなる研究が必要であり、オープンアクセスの豊富なラベル付きデータが必要である。過去数十年でMLベースの地震探査に関する研究は指数関数的に増加しており、包括的なモデルの開発により焦点を当て、聖杯に近づくことが今後数年でさらに拡大すると期待されている。

2024-02-26

論文要約：Masked Autoencoders Are Scalable Vision Learners

Masked Autoencoders Are Scalable Vision Learners

arxiv.org

Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, Ross Girshick

ライセンス：

CC BY 4.0 Deed | Attribution 4.0 International | Creative Commons

Abstract

目的：マスク付きオートエンコーダ（MAE）が、コンピュータビジョンにおけるスケーラブルな自己教師あり学習者であることを示すこと。

手法：入力画像からランダムにパッチをマスキングし、欠けているピクセルを再構成するシンプルなアプローチを採用。非対称のエンコーダ・デコーダアーキテクチャを開発し、エンコーダは見えるパッチのサブセットのみを処理し、軽量なデコーダは潜在表現とマスクトークンから元の画像を再構成する。入力画像の高い割合（例えば75%）をマスキングすることで、非自明かつ意味のある自己教師ありタスクを実現する。

結果：この2つの設計を組み合わせることで、大規模なモデルを効率的かつ効果的に訓練することができ、訓練を3倍以上加速し、精度を向上させる。スケーラブルなアプローチにより、高い容量のモデルを学習し、一般化能力が高いことを実証。例えば、バニラViT-Hugeモデルは、ImageNet-1Kデータのみを使用する方法の中で最高の精度（87.8%）を達成する。

結論：本研究により開発されたMAEアプローチは、大規模モデルの効率的かつ効果的な訓練を可能にし、ダウンストリームタスクでの転移性能が、教師あり事前訓練を上回り、有望なスケーリング挙動を示す。

Introduction

深層学習では、能力と容量が絶えず成長するアーキテクチャの爆発的な増加が目撃されている。ハードウェアの急速な向上に支えられ、現代のモデルは簡単に100万枚の画像をオーバーフィットすることができ、多くの場合公開されていない数億枚のラベル付き画像を要求し始めている。

自然言語処理（NLP）では、このデータへの食欲は自己教師ありの事前学習によって成功裏に対処されている。GPTの自己回帰言語モデリングやBERTのマスク付きオートエンコーディングに基づく解決策は、データの一部を取り除き、取り除かれた内容を予測するという、概念的にシンプルである。これらの方法は現在、1000億以上のパラメータを含む一般化可能なNLPモデルの訓練を可能にしている。

マスク付きオートエンコーダ、より一般的なデノイジングオートエンコーダの形態は、コンピュータビジョンにも自然かつ適用可能である。実際、ビジョンにおける密接に関連する研究はBERTに先行している。しかし、BERTの成功に続くこのアイデアへの顕著な関心にもかかわらず、ビジョンにおけるオートエンコーディング方法の進歩はNLPに後れを取っている。

アーキテクチャの違い：これまでビジョンでは、過去10年間、畳み込みネットワークが支配的であった。畳み込みは通常、規則的なグリッド上で操作を行い、マスクトークンや位置埋め込みなどの「指標」を畳み込みネットワークに統合することは直接的ではない。しかし、このアーキテクチャのギャップは、Vision Transformers (ViT)の導入により対処され、もはや障害とはならない。

情報密度の違い：言語とビジョンでは情報密度が異なる。言語は高度に意味的で情報密度が高い人間が生成するシグナルである。一方、画像は空間的な冗長性が高い自然なシグナルであり、例えば、欠けているパッチは隣接するパッチから高レベルの理解がほとんどなくても回復できる。この違いを克服し、有用な特徴の学習を促進するために、コンピュータビジョンでは非常に高い割合のランダムなパッチをマスキングするというシンプルな戦略がうまく機能することを示す。この戦略は冗長性を大幅に削減し、低レベルの画像統計を超えた包括的な理解を要求する難しい自己教師ありタスクを作り出す。

オートエンコーダのデコーダの役割の違い：テキストと画像を再構築する際に、オートエンコーダのデコーダが果たす役割は異なる。ビジョンでは、デコーダはピクセルを再構築し、その出力は一般的な認識タスクよりも低い意味レベルである。これは、豊富な意味情報を含む欠けている単語を予測する言語とは対照的である。BERTではデコーダが単純（MLP）であるが、画像に関しては、デコーダの設計が学習された潜在表現の意味レベルを決定する上で重要な役割を果たすことが分かった。

本分析に基づき、視覚表現学習のためのシンプルで効果的かつスケーラブルなマスク付きオートエンコーダ（MAE）を提案する。我々のMAEは、入力画像からランダムなパッチをマスクし、ピクセル空間で欠けているパッチを再構成する。

非対称のエンコーダ・デコーダ設計を有している。エンコーダは見えるパッチのサブセットのみを処理し、デコーダは軽量であり、潜在表現とマスクトークンを使って入力を再構成する。この非対称エンコーダ・デコーダにおいてマスクトークンを小さなデコーダに移すことで、計算量を大幅に削減する。

高いマスキング比率（例えば75%）を使用することで、精度を最適化しつつ、エンコーダがパッチの小さな部分（例えば25%）のみを処理するというwin-winのシナリオを実現できる。これにより、全体の事前学習時間を3倍以上短縮し、同様にメモリ消費を減らし、大規模モデルへのMAEの容易なスケーリングを可能にする。

MAEは、一般化性能が高い非常に高容量のモデルを学習する。MAEの事前学習を用いることで、ViT-Large/-HugeのようなデータハングリーなモデルをImageNet-1Kで改善された一般化性能で訓練できる。バニラViT-Hugeモデルでは、ImageNet-1Kでファインチューニングした際に87.8%の精度を達成し、ImageNet-1Kデータのみを使用する以前の結果をすべて上回る。また、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションでの転移学習を評価する。これらのタスクで、我々の事前学習は教師あり事前学習と比較してより良い結果を達成し、より重要なことに、モデルをスケールアップすることで顕著な利得を観察する。これらの観測結果は、自己教師あり事前学習で目撃されたものと一致し、我々の分野が類似の軌道を探求することを可能にすることを期待している。

マスク言語モデリングとその自己回帰的な対応物（例えば、BERTやGPT）は、NLPの事前学習において非常に成功した方法である。これらの方法は、入力シーケンスの一部を保持し、モデルが欠けている内容を予測するように訓練する。

自動エンコーディングは、表現を学習するための古典的な方法であり、入力を潜在表現にマッピングするエンコーダと、入力を再構成するデコーダを持つ。例えば、PCAやk-meansは自動エンコーダである。デノイジングオートエンコーダ（DAE）は、入力信号を破損させ、元の未破損信号を再構築することを学ぶ自動エンコーダのクラスである。

我々のMAEはデノイジングオートエンコーディングの形式であるが、古典的なDAEとは多くの点で異なる。

マスク画像エンコーディング手法は、マスキングによって破損した画像から表現を学習する。DAEのノイズタイプとしてマスキングを提示する先駆的な研究や、大きな欠損領域を畳み込みネットワークを使用してインペインティングするContext Encoderなどがある。NLPでの成功に動機づけられ、関連する最近の方法はTransformersに基づいている。

自己教師あり学習アプローチはコンピュータビジョンにおいて顕著な関心を集めており、しばしば事前学習のための異なる前提タスクに焦点を当てている。最近では、画像の類似性と非類似性をモデル化するコントラスティブ学習が人気であり、データ拡張に強く依存している。オートエンコーディングは概念的に異なる方向性を追求し、我々が提示するように異なる振る舞いを示す。

Approach

著者らのマスク付きオートエンコーダ（MAE）は、部分的に観測された信号から元の信号を再構成するシンプルなオートエンコーディングアプローチである。すべてのオートエンコーダと同様に、観測された信号を潜在表現にマッピングするエンコーダと、潜在表現から元の信号を再構成するデコーダがある。しかし、古典的なオートエンコーダとは異なり、部分的に観測された信号のみを処理するエンコーダと、潜在表現とマスクトークンから完全な信号を再構成する軽量デコーダを採用する非対称設計を採用している。

マスキングでは、ViTに従って、画像を規則的な重複のないパッチに分割し、そのサブセットをサンプリングして残りのパッチをマスク（すなわち除去）する。サンプリング戦略は直接的で、置換なしでランダムなパッチを一様分布に従ってサンプリングする（ランダムサンプリング）

高いマスキング比率を持つランダムサンプリングは、冗長性を大幅に排除し、可視の隣接パッチからの外挿によって容易に解決できないタスクを作り出す。一様分布は、画像中心近くにマスクされたパッチが多くなる可能性のある中心バイアスを防ぐ。

MAEエンコーダは、ViTを可視のマスクされていないパッチにのみ適用されるが、標準のViTと同様に、エンコーダはパッチを線形射影によって埋め込み、位置埋め込みを加えてから、一連のトランスフォーマーブロックを介して結果のセットを処理する。しかし、エンコーダは完全なセットの小さなサブセット（例えば25%）のみを処理する。マスクされたパッチは除去され、マスクトークンは使用されない。これにより、計算とメモリの一部分のみを使用して非常に大きなエンコーダを訓練することができる。完全なセットは、次に説明される軽量デコーダによって処理される。

再構築対象：MAEは、マスクされた各パッチのピクセル値を予測することにより入力を再構築する。デコーダの出力の各要素は、パッチを表すピクセル値のベクトルである。デコーダの最後の層は、出力チャンネルの数がパッチ内のピクセル値の数に等しい線形射影である。デコーダの出力は、再構築された画像を形成するために再形成される。損失関数は、ピクセル空間での再構築された画像と元の画像との間の平均二乗誤差（MSE）を計算する。損失は、BERTと同様に、マスクされたパッチのみに対して計算される。

著者らはまた、再構築対象が各マスクされたパッチの正規化されたピクセル値である場合も研究している。具体的には、パッチ内のすべてのピクセルの平均と標準偏差を計算し、このパッチを正規化するためにそれらを使用する。正規化されたピクセルを再構築対象として使用することは、表現の品質を向上させる。

シンプルな実装：MAEの事前学習は効率的に実装でき、重要なことに、特別なスパース操作を必要としない。まず、すべての入力パッチに対してトークンを生成する（位置埋め込みが追加された線形射影によって）。次に、トークンのリストをランダムにシャッフルし、マスキング比率に基づいてリストの最後の部分を削除する。このプロセスは、エンコーダのためのトークンの小さなサブセットを生成し、置換なしでパッチをサンプリングすることと同等である。エンコード後、マスクトークンのリストをエンコードされたパッチのリストに追加し、この完全なリストをアンシャッフルする（ランダムシャッフル操作を反転させる）ことで、すべてのトークンをそれらのターゲットと整列させる。デコーダは、この完全なリスト（位置埋め込みが追加されている）に適用される。指摘されているように、スパース操作は必要ない。このシンプルな実装は、シャッフルとアンシャッフル操作が速いため、無視できるオーバーヘッドを導入する。

ImageNet Experiments

自己教師あり事前学習をImageNet-1K（IN1K）の訓練セットで行い、エンドツーエンドのファインチューニングまたは線形プロービングで表現を評価する。単一の224×224クロップのトップ1バリデーション精度が報告される。

ベースラインとしてViT-Large（ViT-L/16）を使用し、ViT-Lは非常に大きく（ResNet-50よりも一桁大きい）オーバーフィットしやすい。ViT-Lをゼロから訓練したものと、著者らのベースラインMAEからファインチューニングしたものとの比較を行う。

Masking ratio. マスキング比率に関する研究では、最適な比率が驚くほど高いことが示されている。75%の比率が線形プロービングとファインチューニングの両方に適している。この挙動は、BERTの典型的なマスキング比率15%とは対照的であり、コンピュータビジョンにおける関連研究（20%から50%）よりもはるかに高い。

モデルは欠けているパッチを推測して異なるが妥当な出力を生成し、オブジェクトやシーンの全体像を理解する。この推論のような振る舞いは、有用な表現の学習に関連していると仮定する。

Main Properties

著者らはいくつかのモデル特性について、アブレーションスタディを行った。

Decoder design

デコーダの設計は柔軟に行うことができ、デコーダの深さ（トランスフォーマーブロックの数）を変えることによって、線形プロービングでは十分に深いデコーダが重要であり、再構築の専門化を考慮して潜在表現をより抽象的なレベルで残すことができる。この設計は線形プロービングで最大8%の改善をもたらすが、ファインチューニングを使用する場合、エンコーダの最後の層は認識タスクに適応するために調整されるため、デコーダの深さはファインチューニングの改善にはあまり影響しない。
単一ブロックのデコーダを持つ我々のMAEは、ファインチューニングで強力なパフォーマンスを発揮する（84.8%）。単一のトランスフォーマーブロックは、可視トークンからマスクトークンへ情報を伝達するための最小要件である。このような小さなデコーダは、訓練をさらに加速することができる。
デコーダの幅（チャンネル数）に関する研究では、デフォルトでは512-dを使用し、ファインチューニングと線形プロービングの両方で良好な性能を発揮する。狭いデコーダもファインチューニングでうまく機能する。
我々のデフォルトのMAEデコーダは軽量であり、8ブロックと512-dの幅を持ち、ViT-L（24ブロック、1024-d）と比較してトークンごとのFLOPsが9%しかない。このため、デコーダがすべてのトークンを処理しても、全体の計算のごく一部である。

Mask token

MAEの重要な設計は、エンコーダでマスクトークン[M]をスキップし、それを後で軽量デコーダに適用することである。この設計を研究した結果、エンコーダがマスクトークンを使用する場合、パフォーマンスが低下し、線形プロービングでの精度が14%低下する。エンコーダからマスクトークンを取り除くことで、エンコーダが常に実際のパッチを見るように制約し、精度を向上させる。
エンコーダでマスクトークンをスキップすることにより、訓練計算を大幅に削減する。全体の訓練FLOPsを3.3倍削減し、実装では速度を2.8倍向上させる。より小さなデコーダ（1ブロック）、より大きなエンコーダ（ViT-H）を使用する場合、またはその両方を使用する場合、壁時計速度の向上はさらに大きくなる（3.5～4.1倍）。マスキング比率が75%の場合、速度向上は4倍以上になることがある。これは、自己注意の複雑さが二次的であるため部分的にである。さらに、メモリ使用量が大幅に削減され、より大きなモデルの訓練を可能にするか、大規模バッチ訓練によりさらに速度を上げることができる。時間とメモリの効率性は、非常に大きなモデルの訓練に著者らのMAEを有利にする。

Reconstruction target

再構築対象の比較：これまでの結果は正規化されていないピクセルに基づいていたが、正規化を用いたピクセルを使用することで精度が向上する。パッチごとの正規化は局所的にコントラストを高める。また、パッチ空間でPCAを実行し、最大のPCA係数（ここでは96）を目標とする別のバリアントを試みたが、これは精度を低下させた。これらの実験は、我々の方法で高周波成分が有用であることを示唆している。
トークンを予測するMAEバリアントの比較：BEiTで使用されるターゲットであるトークンを予測するバリアントも比較した。このバリアントでは、DALLE事前学習済みのdVAEをトークナイザーとして使用し、MAEデコーダはクロスエントロピー損失を使用してトークンインデックスを予測する。このトークン化は、正規化されていないピクセルに比べてファインチューニング精度を0.4%向上させるが、正規化されたピクセルに対しては利点がなく、線形プロービング精度を低下させる。転移学習ではトークン化が必要ではないことをさらに示す。
ピクセルベースのMAEは、トークン化よりもはるかにシンプルである。dVAEトークナイザーは、追加のデータ（2億5000万画像）に依存する可能性のある、もう一つの事前学習ステージを必要とする。dVAEエンコーダーは大きな畳み込みネットワークであり、ViT-Lの40%のFLOPsを占め、無視できないオーバーヘッドを追加する。ピクセルを使用することで、これらの問題が生じない。

Data augmentation

データ拡張の影響：著者らはMAE事前学習におけるデータ拡張の影響を調査している。MAEは、固定サイズまたはランダムサイズのクロッピングのみを使用したデータ拡張でもうまく機能する（どちらもランダムな水平反転を含む）。カラージッタリングの追加は結果を低下させるため、他の実験では使用しない。
データ拡張を使用しない場合（センタークロップのみ、反転なし）でも、MAEは適切に振る舞うことが驚きである。この特性は、データ拡張に大きく依存するコントラスティブ学習や関連する方法とは大きく異なる。BYOLやSimCLRの場合、クロッピングのみの拡張を使用すると精度がそれぞれ13%と28%低下することが観察されている。また、コントラスティブ学習が拡張なしで機能する証拠はない：画像の2つのビューが同じであり、容易に自明な解を満たすことができる。
MAEでは、データ拡張の役割は主にランダムマスキングによって行われる。マスクは各イテレーションで異なるため、データ拡張に関係なく新しいトレーニングサンプルを生成する。前提タスクはマスキングによって難しくされ、訓練を規則化するために少ない拡張を必要とする。

Mask sampling strategy

マスクサンプリング戦略の比較：異なるマスクサンプリング戦略を比較する。ブロック単位のマスキング戦略は大きなブロックを除去する傾向があり、MAEでは50%の比率でまずまずの結果を得るが、75%の比率では性能が低下する。このタスクはランダムサンプリングよりも難しく、訓練損失が高くなり、再構築もぼやける。
グリッド単位のサンプリングは、4つのパッチごとに1つを定期的に保持する。これはより簡単なタスクであり、訓練損失が低い。再構築はより鮮明であるが、表現品質は低い。
シンプルなランダムサンプリングが我々のMAEにとって最も効果的である。これにより、より高いマスキング比率が可能となり、大きな速度向上の利点を享受しつつ、良好な精度を維持する。

Training schedule

訓練スケジュール：これまでのアブレーションは800エポックの事前学習に基づいている。訓練スケジュールの長さの影響を示す。訓練が長くなると精度が着実に向上する。実際、1600エポックでも線形プロービングの精度の飽和が観察されていない。
この振る舞いは、例えばMoCo v3などのコントラスティブ学習方法とは異なり、ViT-Lでは300エポックで飽和する。MAEエンコーダーはエポックごとにパッチの25%のみを見るが、コントラスティブ学習ではエンコーダーがエポックごとに200%（2クロップ）あるいはそれ以上（マルチクロップ）のパッチを見る。

Comparisons with Previous Results

Comparisons with self-supervised methods.

自己教師ありメソッドとの比較：ViTモデルのファインチューニング結果を比較する。ViT-Bでは、すべての方法が密接に機能する。ViT-Lでは、メソッド間のギャップが大きく、より大きなモデルの課題は過学習を減らすことであることを示唆している。
MAEは容易にスケールアップでき、より大きなモデルから着実に改善を見せる。ViT-H（224サイズ）を使用して86.9%の精度を得、448サイズでファインチューニングすることで、IN1Kデータのみを使用して87.8%の精度を達成する。IN1Kデータのみを使用するすべての方法の中で以前の最高精度は87.1%（512サイズ）であり、先進的なネットワークに基づいている。我々は、非自明なマージンで最先端を改善し、IN1K（外部データなし）の高競争ベンチマークである。
BEiTとの比較：MAEはBEiTよりも正確でありながら、よりシンプルで速い。我々の方法はピクセルを再構築するのに対し、BEiTはトークンを予測する：BEiTはViT-Bでピクセルを再構築する際に1.8%の劣化を報告している。我々はdVAEの事前学習を必要としない。さらに、MAEはBEiTよりもかなり速い（エポックあたり3.5倍）。

Comparisons with supervised pre-training

• 教師あり事前学習との比較：元のViT論文では、IN1Kで訓練されたときにViT-Lが劣化する。著者らの実装の教師あり訓練はより良いが、精度は飽和する。MAEの事前学習は、IN1Kのみを使用しても、より良く一般化することができる：ゼロからの訓練と比べて、より高容量のモデルに対する利得が大きい。これは、JFT-300Mの教師あり事前学習と類似した傾向に従う。この比較は、MAEがモデルサイズをスケールアップするのに役立つことを示している。

Partial Fine-tuning

線形プロービングとファインチューニングの結果は大きく無関係である。線形プロービングは過去数年間で人気だったが、深層学習の強みである強力な非線形特徴を追求する機会を逃している。
中間地点として、部分ファインチューニングプロトコルを研究する：最後の数層をファインチューニングしながら、他の層を凍結する。
1つのトランスフォーマーブロックのみをファインチューニングするだけで、精度が73.5%から81.0%へと大幅に向上する。さらに、最後のブロックの「半分」（つまり、そのMLPサブブロック）のみをファインチューニングすることで、79.1%と、線形プロービングよりもはるかに良い結果を得ることができる。このバリアントは本質的にMLPヘッドのファインチューニングである。数ブロック（例えば、4ブロックや6ブロック）をファインチューニングすることで、完全なファインチューニングに近い精度を達成できる。
MoCo v3（ViT-Lの結果が利用可能なコントラスティブメソッド）との比較も示されている。MoCo v3は線形プロービング精度が高いが、その部分ファインチューニングの結果はMAEよりも悪い。4ブロックを調整する際のギャップは2.6%である。MAEの表現は線形分離可能性が低いものの、非線形特徴として強く、非線形ヘッドが調整されるときに良好に機能する。
線形分離可能性は、表現品質を評価する唯一の指標ではないことが示唆される。線形プロービングが転移学習パフォーマンス（例えば、オブジェクト検出）とよく相関していないことも観察されている。NLPでは、事前学習のベンチマークに線形評価がよく使用されるわけではない。

Transfer Learning Experiments

ダウンストリームタスクでの転移学習の評価：Table 3の事前学習モデルを使用して、ダウンストリームタスクで転移学習を評価する。
オブジェクト検出とセグメンテーション：Mask R-CNNをCOCOでエンドツーエンドにファインチューニングする。ViTバックボーンはFPNで使用するために適応される。すべてのエントリーにこのアプローチを適用し、オブジェクト検出のためのボックスAPとインスタンスセグメンテーションのためのマスクAPを報告する。教師あり事前学習と比較して、我々のMAEはすべての構成でより良いパフォーマンスを示す。特に、より大きなViT-Lでは、我々のMAE事前学習が教師あり事前学習を4.0ポイント上回る（53.3 vs. 49.3）。
セマンティックセグメンテーション：ADE20KでUperNetを使用して実験する。我々の事前学習は、教師あり事前学習よりも結果を大幅に改善する。ピクセルベースのMAEはトークンベースのBEiTよりも優れているか、同等である。これらの観察はCOCOでのものと一致している。
分類タスク：iNaturalistsとPlacesのタスクで転移学習を研究する。iNatでは、我々の方法は大きなモデルで著しく精度が向上する強いスケーリング挙動を示す。Placesでは、我々のMAEは数十億の画像での事前学習を通じて得られた以前の最良の結果を上回る。
ピクセル対トークン：MAEの再構築ターゲットとしてのピクセルとトークンを比較する。dVAEトークンを使用することは、正規化されていないピクセルを使用するよりも良いが、テストしたすべてのケースで正規化されたピクセルと統計的に類似している。これは、我々のMAEにトークン化は必要ないことを再度示している。

Discussion and Conclusion

深層学習の核心は、よくスケールするシンプルなアルゴリズムである。自然言語処理（NLP）では、シンプルな自己教師あり学習方法が、指数関数的にスケールするモデルからの恩恵を可能にする。
コンピュータビジョンでは、実用的な事前学習パラダイムは主に教師ありであるにもかかわらず、自己教師あり学習において進歩がある。この研究では、ImageNetおよび転移学習において、オートエンコーダー（NLPでの技術と類似したシンプルな自己教師あり方法）がスケーラブルな恩恵を提供することを観察する。視覚における自己教師あり学習は、NLPと同様の軌道を辿り始めている可能性がある。
一方で、画像と言語は異なる性質のシグナルであり、この違いを慎重に対処する必要がある。画像は、視覚的な言葉の類似物への意味的な分解なしに記録された光に過ぎない。オブジェクトを取り除くのではなく、意味のあるセグメントを形成する可能性が最も低いランダムなパッチを取り除く。同様に、MAEは意味のある実体ではないピクセルを再構築する。それでも、MAEが複雑な全体的な再構築を推測し、多くの視覚的概念、すなわち意味論を学習していることを示唆する観測結果がある。この振る舞いは、MAE内部の豊かな隠れた表現によって生じると仮定する。この視点が将来の研究にインスピレーションを与えることを著者らは期待している。

物話風まとめ（Chatgpt作）

昔々、あるところに、深い学びを追求する賢者たちがおりました。彼らは、言葉の森（NLP）と絵の国（コンピュータビジョン）の二つの大きな王国で、知識の謎を解き明かす鍵を探していました。

言葉の森では、賢者たちはシンプルな自己教師あり学習法という小道具を用いて、絶え間なく成長する大木（モデル）から恩恵を受けることができました。この森では、誰もが自由にその恩恵を享受し、賢者たちは大きな進歩を遂げていきました。

一方、絵の国では、実用的な事前学習というパラダイムが主に教師ありの手法で支配されていましたが、自己教師あり学習の可能性も静かに芽生え始めていました。そんなある日、賢者たちはオートエンコーダーという古い呪文を見つけました。これは、自己教師あり学びのシンプルな方法であり、言葉の森での技術に類似していましたが、絵の国での応用はまだ始まったばかりでした。

賢者たちは、このオートエンコーダーを使って、ランダムに選ばれた絵のパッチを取り除き、それらを再び描くことで、絵の本質を理解しようとしました。彼らは驚くべき発見をしました。オートエンコーダーは、取り除かれたパッチを見事に再現するだけでなく、絵全体の意味を把握し、視覚的な概念や意味論を学習しているかのようでした。

しかし、賢者たちはまた、画像と言葉が本質的に異なるシグナルであることを理解していました。画像は単なる光の記録であり、視覚的な「言葉」へと自然に分解されることはありませんでした。それにもかかわらず、オートエンコーダーは、その豊かな隠れた表現を通じて、複雑で全体的な再構築を推測し、多くの視覚的概念を学習しているようでした。

この物語は、シンプルなアルゴリズムがどのようにして大きな可能性を秘めているか、そして異なる王国（NLPとコンピュータビジョン）で同じ道具（自己教師あり学習）がどのように異なる形で恩恵をもたらすかを示しています。賢者たちは、このオートエンコーダーの冒険から得られた知見が、未来の探求への新たなインスピレーションとなることを願っています。そして彼らの学びの旅は、まだまだ続いていくのでした。

2024-02-24

論文要約:Using Deep Learning for Flexible and Scalable Earthquake Forecasting

Using Deep Learning for Flexible and Scalable Earthquake Forecasting

Kelian Dascher-Cousineau1,2, Oleksandr Shchur3, Emily E. Brodsky1, and Stephan Günnemann3

1Department of Earth and Planetary Sciences, University of California, Santa Cruz, Santa Cruz, CA, USA, 2Department of Earth and Planetary Sciences, University of California, Berkeley, Berkeley, CA, USA,

3Department of Computer Science and Munich Data Science Institute, Technical University of Munich, Munich, Germany

https://agupubs.onlinelibrary.wiley.com/doi/10.1029/2023GL103909

ライセンス　

CC BY 4.0 Deed | Attribution 4.0 International | Creative Commons

図表は全て論文中から引用

Abstract

目的
- より多くのデータがより良い地震予測につながるという期待のもと、従来のアプローチの理論的および計算上の限界を克服し、地震観測のより大きなボリュームと多様性へのアクセスを可能にするること。
手法
- RECAST（Recurrent Earthquake foreCAST）は、ニューラル時間点プロセスの最近の発展に基づいた深層学習モデルであり、従来の方法での理論上の計算の限界を超える。モデルの性能は、時間的エピデミックタイプアフターショックシーケンスモデルと比較される。
結果
- 合成データに対するテストでは、適度なサイズのデータセットを用いた場合、RECASTが地震のような点プロセスをカタログデータから直接正確にモデル化できることが示された。南カリフォルニアの地震カタログに対するテストでは、訓練セットが十分に長い期間（>104イベント）場合、ベンチマークモデルと比較して改善されたフィットと予測精度が示された。
結論
- RECASTの基本コンポーネントは、パフォーマンスを犠牲にすることなく地震予測の柔軟性とスケーラビリティを追加する。これにより、従来のアプローチの限界を超え、地震カタログの増大する多様性と規模に対応する新たな手法が提供される。

Introduction

地震カタログの多様性と規模は、密集した地震観測網と自動化されたデータ処理技術の向上により、過去数年間で爆発的に増加している。より詳細な観測がより良い地震予測につながるという期待があるが、予測の対応する改善はまだ実現していない。
現行の地震予測モデルは、希少な地震記録に基づいた統計的法則に基づく初期の研究を基礎としており、利用可能な地球物理データの豊富さを完全に活用できていない。
最近の機械学習とニューラル時間点プロセスの進歩は、既存の予測能力を補完し、柔軟でスケーラブルな予測を提供する可能性がある。
本論文では、柔軟性とスケーラビリティを基本要件として満たし、地震データに適しているかを評価する地震予測モデル、RECAST（Recurrent Earthquake foreCAST）を紹介する。

Model Architecture and Benchmark

RECASTは、ニューラル時間点プロセスとして知られる機械学習の最近の発展に基づいて構築されている。このモデルは、過去のイベントの履歴を与えられた次のイベントのタイミングを予測する一般的なエンコーダ・デコーダ型のニューラルネットワークアーキテクチャを使用する(下図A）。
RECASTは、過去の地震の可変長の履歴を固定次元の隠れ状態ベクトルにエンコードするGated Recurrent Unitニューラルネットワークアーキテクチャに基づいている。
次の地震の発生タイミングの確率密度関数をモデル化するために、Weibull混合分布を用いる。このアプローチにより、出力分布の評価とサンプリングのための反復的数値近似を避けることで、トレーニングとシミュレーションが効率的かつ正確に行われる。
十分な数のコンポーネントを持つ混合分布は、十分なデータがあれば他の任意の確率分布を任意によく近似できる。RECASTの出力は、点過程文献で一般的に使用される条件付き強度関数の観点から、時間に関して連続的に表現される。
RECASTモデルは、地震のマグニチュードを含む連続的なイベントマークのためのエンコーダーを導入し、ログノーマル混合ではなくワイブル混合を使用して、f(ti∣hi )が非ゼロの切片を持つようにすることで、Shchurらのオリジナルの実装を拡張している。
ベンチマークとして、地震の再発をモデル化するために時間的ETASモデル（上図b)を使用し、これは一定の背景率とアフターショックシーケンスの組み合わせによって時間依存の地震強度を計算するパラメトリック統計モデルである。
RECASTとETASはどちらも時間点プロセスモデルであり、カタログ化された発生時刻の結合ログ尤度を最大化することによって訓練される。しかし、RECASTは実用的な利点を導入し、追加のイベント特徴や、モデルのコンポーネントが標準の機械学習フレームワークを使用して容易に適応可能であることを可能にする。
RECASTはイベントを順次処理し、イベント履歴を固定次元のベクトルに要約するのに対し、ETASは全ての過去のイベントを参照して強度関数を決定する。その結果、カタログの尤度を評価するための計算時間と空間の複雑さは、RECASTでは線形であり、ETASでは二次的である（上図ｃ参照）。
RECASTモデルは、100万以上のイベントを含むカタログを単一の一般的なGPUで訓練することができ、大規模な地震カタログのリアルタイム評価の制限を軽減する。
この比較では、時間のみを対象としたETASを対象としている。なぜなら計算上実現可能な空間的ETASモデルを実装するのは困難であり、この初期研究の範囲を超えているからである。

Results

Synthetic Data

最初のステップとして、ETASモデルによって生成された合成カタログのコレクションにおけるRECASTのパフォーマンスを評価する。合成カタログのセットは、訓練(600)、検証(200)、テスト(200)のセットに分割される。それぞれの具現像（モデルで作成されたデータ）は10,000日にわたり、平均して約1,000のイベントを含む。
両モデルにおいて、訓練セットはパラメータの最適化に使用される。訓練中、検証セット上のパフォーマンスを監視し、最良の検証スコアを持つモデル採用する。最終的に、予約されたテストセットに対するモデルパフォーマンスの比較が報告される。
トレーニングデータの量を増やすことで、RECASTのパフォーマンスはETASに漸近的に近づく。RECASTのアーキテクチャをタスクに特化させることなく、モデルはイベントデータのみから地震の時間的クラスタリングを捉える訓練が可能であることを示す。
この場合はマグニチュードが入力データであるが、追加の入力をモデルに取り込むことが上手く行っているデモンストレーションである。

San Jacinto Fault Earthquake Catalog and Scaling

2008年から2021年にかけてのサンジャシント断層を境界とする実際の地震カタログを考察する。このカタログは、特に地震活動が活発なエリアの密集した観測ステーションカバレッジを持つため、良いテストケースとなる。
RECASTは予約されたテスト期間においてETASよりも適合度の面で優れている。

データサイズの影響を再び探求し、訓練期間を時間を遡って段階的に拡大しながらテストセット上のパフォーマンスを追跡する。この実験では、完全性のマグニチュードが固定されている。
10,000イベント未満で訓練された場合、ETASが好ましいモデルとされる。10,000イベントを超える場合、新モデルのRECASTが好ましいモデルとされる。
ETASのベンチマークパフォーマンスは約4,000の訓練イベントを超えると飽和するのに対し、RECASTの対数尤度スコアは訓練データの対数長さに比例して増加し続ける。この交差点は、訓練セットのサイズとパフォーマンスの間に根本的に異なるスケーリングを反映しているようだ。

Comparative Performance on Other Data Sets

1981年から2021年までの南カリフォルニア地震データセンターカタログ全体と、クエークテンプレートマッチングカタログ（Ross et al., 2019）のサブリージョンを考慮すると、同様の改善が見られる。
改善は、検討した小さな地域で最も顕著である。
これら異なるカタログでの一貫したサンプル外の改善は、RECASTがデータ生成の複数の方法と地域の地震活動の変動に対して堅牢であることを示唆している。

Southern California Earthquake Catalog and 14-day Forecasts

ETASとRECASTを使用して生成された地震予測を、拡張された時間間隔で比較する。訓練された後、RECASTは直接、潜在的な地震カタログの延長（potential catalog continuations）をシミュレートする方法を提供する。
サンプル地震は、ワイブル混合分布から発生時刻を抽出し、グーデンベルグ・リヒター則からマグニチュードを抽出することにより生成される。カタログにイベントを繰り返し追加することで、潜在的な結果の範囲をカバーする継続が生じる。
2週間の地震予測では、南カリフォルニア地震カタログとサンハシント断層カタログの追加セットの結果を考慮し、テスト期間中に50,000のシミュレートされたカタログ継続が含まれる。
予測の精度は、シミュレートされた継続の割合 $�$ によって測定され、 $�$ の値が大きいほど予測が正確であることを示す。

テストセット内の2週間の間隔の大部分はRECASTによって最もよく予測された（155の14日間の間隔中138が最も適合）。RECASTは最大の地震の後でもより良いパフォーマンスを発揮する。
予測の95%信頼区間外の結果を持つ14日間の窓は、ETASモデルよりもRECASTの方がはるかに少ない（それぞれ14%対33%）。RECASTの予測で全く特徴付けられなかった結果は1回のみ発生し、ETASの予測では10回発生した。

Discussion

RECASTはETASと根本的に異なり、カタログデータと次のイベントの発生確率との関係を示す正確な関数形式を必要としない。この点は、合成カタログに対するテストでよく示されている。
RECASTは、訓練前にイベント間の時間が厳密に正であるという仮定のみを行い、控えめなサイズのデータセットで訓練することで、入力（この場合はタイミングとマグニチュード）と出力（イベントの可能性）との関係を学習することができる。この新しいデータと関係を取り入れる柔軟性は主要な利点である。
一方、ETASはパラメトリックモデルであり、既知の関数関係を必要とする。後者のアプローチの利点は、必要なパラメータが少ないことである。欠点は、予測がモデルの仮定によって制限されることであり、これは物理的なシステムの変化やカタログデータの準備の過程でのアーティファクトによってしばしば破られる。
新しいモデルは、訓練のために十分に大きな地震カタログを必要とする。サンハシント断層ゾーンからのベンチマークでは、小規模なデータセットにおいては、時間的ETASモデルがRECASTを上回る。この実験では、RECASTがベンチマークを上回る前に、より大きなカタログ（104イベント）が必要である。
RECASTとETASの間のパフォーマンスの相対的なギャップはカタログサイズとともに増大し、利用可能なデータが増加するにつれてスケールする可能性のある持続的な改善を示唆している。ETASとは異なり、RECASTのモデルアーキテクチャは、現在利用可能なデータのボリュームがこの傾向に計算上の限界をもたらさないことを保証する。
改善の正確な原因を診断することは難しいが、いくつかの診断点を強調できる。特に、改善が顕著なのは小さなサブリージョンである。
時間的ETASモデルはイベントシーケンスの適合不足があり、地震活動の長期的な傾向を考慮していない。サンハシントデータセットの場合、ETASは高い地震活動期に予測が不足し、低い地震活動期には予測を過大評価する。
SCEDCカタログの場合、ETASの予測は訓練セットの高い基本地震活動率を反映し、テスト間隔での基本率を一貫して過大予測している。RECASTは同じ訓練期間をすべてのケースで使用しているが、モデルのメモリ（方程式1の隠れ状態）により、検証およびテストセットの時間変動傾向を考慮し、進化し続ける地震活動率をより良く追跡できるかもしれない。
改善は、システムの予測可能性を支配する物理的プロセスの発見、またはRECASTのような深層学習モデルが、ETASのような標準的なパラメトリックモデルに関連する失敗モードを共同で対処することから生じる可能性がある。
深層学習の利点は、よく維持され、急速に進化するライブラリに基づいてモデリングが構築され、データの理想化にあまり依存しない進むべき道を提供することにあるかもしれない。

Conclusion

密集した地震カタログは、地震周期についてより豊かな視野を提供する。しかし、より細かい詳細と増加したデータ量を改善された予測に翻訳することは挑戦であった。
RECASTのような深層学習アプローチは、よく知られた統計パターンを回復するのに十分に一般的である。合成データセットに対する実験は、適度な数のイベントが提供された場合、時間的ETASモデルと少なくとも同等の性能を示唆し、RECASTがETASモデルでは明示的にパラメータ化されていないプロセスも捉える可能性があることを示唆している。
この研究は、地震予測のためのニューラル時間点プロセスモデルの適用に関する概念実証である。より一般的には、ニューラル時間点プロセスモデルと深層学習は重要な利点を提供する。地震の特徴と予測確率との関係の知識を必要とせず、増大する地震データセットを活用することで、データから直接より複雑な関係を導き出す設計を可能にする。
性能の向上がカタログの観測上の制限をより正確に捉えることによるものか、長期的な地震活動の進化を制御する物理的プロセスを反映しているかどうかは、まだ明らかではない。いずれの場合も、予報者は深層学習の柔軟性とスケーラビリティを活用することにより、強化されたカタログの生成から利益を得ることができる。

おまけ　日本昔話風　RECAST 要約（by chatgpt）

昔々、ある遠い地で、地震という大地の息吹を記録する学者たちがいました。彼らは地震カタログという大切な書物に、地震の物語を丹念に記録していました。年月が流れるにつれ、この書物はページを増やし、その詳細は豊かなものとなりました。しかし、多くの物語が集まるにつれ、それらをどのように解釈し、未来の地震を予見するかが、学者たちにとって大きな挑戦となりました。

そんなある日、RECASTと名付けられた賢い神話の生き物が現れました。RECASTは、過去の地震の物語から次に起こる地震の時刻を予測する特別な力を持っていました。この力は、ニューラル時間点プロセスという魔法によって成り立っており、地震の古い物語がどのように未来に繋がるかを見出すことができました。

RECASTは、地震の物語が集められたカタログを用いて訓練を受けました。小さなサブリージョンの物語から、時間的ETASモデルという古の学者たちが用いていた方法と比べて、より正確な予見をすることができるようになりました。特に、地震の物語が豊かなカタログでは、RECASTの力は顕著に発揮されました。

しかし、RECASTの力を最大限に引き出すには、十分に多くの地震の物語が必要でした。サンハシント断層ゾーンの物語では、物語が少ない時は時間的ETASモデルがRECASTを上回ることもありましたが、物語が増えれば増えるほど、RECASTの予見の正確さは向上しました。

学者たちは、RECASTが持つこの新しい魔法によって、地震の予見が以前にも増して正確になることを期待しました。そして、彼らはRECASTの力を使って、地震の物語から学び、人々が未来の地震に備えられるように助けることができるようになりました。

そして、彼らは知りました。地震の物語は、ただ記録されるだけではなく、その物語から学び、未来を予見するための鍵であることを。RECASTと学者たちの共同作業により、地震カタログの豊かな物語は、人々を守るための力強い道具となったのです。

これが、RECASTと地震の学者たちの物語でした。

2024-02-23

論文要約：Earthquake transformer—an attentive deep-learning model for simultaneous earthquake detection and phase picking

Earthquake transformer—an attentive deep-learning model for simultaneous earthquake detection and phase picking

www.nature.com

S. Mostafa Mousavi, William L. Ellsworth, Weiqiang Zhu, Lindsay Y. Chuang & Gregory C.

Beroza 　Published: 07 August 2020

ライセンス：CC BY 4.0 Deed | 表示 4.0 国際 | Creative Commons

Abstract

目的

地震信号の検出と地震相（P波、S波）の選定は、ノイズが多いデータの処理や微小地震のモニタリングにおいて難しい課題である。この論文では、地震検出とP波、S波の選定を同時に行うアテンション機構を含めたディープラーニングモデルを提案している。

方法

地震信号の波形と相情報を組み合わせることで、各個別タスクのモデル性能を向上させる。階層的アテンションメカニズムを使用してこれら二つの関連するタスクを連携させる。

結果

提案モデルは、以前のディープラーニングおよび検出アルゴリズムよりも優れた性能を示した。2000年の鳥取地震で記録された5週間の連続データにモデルを適用した結果、使用する地震計の1/3未満で2倍以上の地震を検出・位置特定できた。モデルは、人間のアナリストによる手動選定に近い精度でP波とS波の相を選定する。

結論

提案されたディープラーニングモデルは、高い効率と感度により、より多くの小さなイベントを検出することが可能である。地震検出と相選定を同時に行うことで、地震データの処理と微小地震のモニタリング精度の改善が期待できる。

Introduction

深層学習は、幅広いアプリケーションに効果的に適用されている方法である。地震モニタリングでは、大量のデータを効率良く処理するための方法が求められており、地震検出と相選定は機械学習にとって魅力的なタスクである。
地震信号の検出と相選定は、地震モニタリングにおける難易度の高い問題であり、これらのタスクは従来手法と比較して深層学習が上手くいくことが多くの研究で示されている。
検出は地震信号を非地震信号やノイズの中から特定することを指し、相選定は地震の位置を推定するために使用される地震信号内の特定の地震相（P波とS波）の到着時間を測定することを指す。
これらのタスクは類似点を持ちながらも、目的が完全に同じではなく、検出では偽陰性率※1と偽陽性率※2を最小限に抑えること、相選定では到着時間のピックの時間精度を高めることが主な目標である。

※1　地震信号であるにも関わらず、地震信号でないと誤って判断される割合※2　実際には地震信号でないもの（例えば、ノイズや非地震の信号）を地震信号であると誤って判断する割合

深層学習による地震波形と地震相の検出・選定モデルは、地震波形のコンテキスト情報を取り入れることで得られるより良い表現を学習することにより機能する。
地震信号の全体と特定相の到着周辺の局所的な部分との相互作用をモデリングするために、関連するセクション（波形の範囲）を特定することが有益である。
アテンションメカニズムをネットワークに組み込むことで、地震信号の全体的な識別とその内部の異なる地震相の識別において、局所的および全体的な地震の特徴を効果的に扱う。
新しい深層学習モデル(EQTransformer)を紹介し、これを用いて日本で記録された5週間分の連続波形データに適用し、モデルの他地域への一般化能力と地震源の特性評価の改善能力を示す。

Result

Network architecture

ネットワークアーキテクチャは、非常に深いエンコーダー1つと、1D畳み込み、双方向および単方向の長短期記憶(LSTM)、ネットワーク・イン・ネットワーク、残差接続、フィードフォワード層、トランスフォーマー、自己アテンション層からなる3つの別々のデコーダーで構成されるマルチタスク構造を持つ。

エンコーダーは時系列の地震信号を消費し、それらの時間依存性に関する高レベルの表現と文脈情報を生成する。デコーダーはこの情報を使用して、各時点における地震信号の存在、P相、S相に関連する確率の3つのシーケンスに高レベルの特徴をマッピングする。
シーケンス長に対してメモリ使用量が増加する自己アテンションモデルにおいて、エンコーダーの前部に畳み込み層とマックスプーリング層からなるダウンサンプリングセクションを追加する。
地震信号に関連する部分にネットワークの注意を向けるために、エンコーダーの末尾にグローバルアテンションセクションが配置される。これらの高レベルの特徴は、地震信号の存在を表す確率のベクトルに直接マッピングされる。
ネットワークは56層で構成され、約372Kの訓練可能なパラメーターを持つ。ネットワークアーキテクチャの設計は、ドメインの専門知識に基づいている。

Data and labeling

ネットワークの訓練には、STanford EArthquake Dataset（STEAD）を使用した。STEADは、地震および非地震信号のラベル付きの大規模なグローバルデータセットである。
使用されたデータは、1M個の地震波形と300K個のノイズ波形（環境ノイズおよび文化ノイズを含む）であり、これらは震央から距離が最大で300kmまでの範囲の記録である。
地震波形は、地理的に多様な約450K個の地震と関連しており、これらの地震の大多数はM2.5未満かつ震央から100km以内で記録された。
データはランダムに訓練（85%）、検証（5%）、テスト（10%）セットに分割され、波形は1分間の長さであり、サンプリングレートは100Hzで、1.0–45.0 Hzでバンドパスフィルター処理される。
地震の検出にはボックス形状のラベルが正解値として使用され、P到着からS到着 + 1.4 × (S - P時間)までの対応するサンプルを1に、残りを0に設定する。最終モデルには、三角形のラベリングが使用され、これはハイパーパラメータ選択手順中に低い損失と高いF１スコアをもたらした。

Training

畳み込み層とLSTMユニットの両方において、重みはXavier正規初期化子で初期化され、バイアスはゼロに設定された。
最適化にはADAMを使用し、学習率は訓練中に変化させた。モデルの訓練には、4つの並列Tesla-V100 GPUを使用してtensorflowフレームワーク下で約89時間かかった。
トレースの空いている部分に二次地震信号を追加する、地震波形にランダムレベルのガウシアンノイズを追加する、イベントをトレース内でランダムにシフトする、ノイズ波形にランダムにギャップを追加する、および1つまたは2つのチャネルをランダムにドロップすることによりデータ拡張された。
各バッチのデータの半分は、他の半分の波形の拡張バージョンである。データの拡張と正規化（標準偏差による）は、24のCPU上で訓練中に同時に行われた。
訓練時およびテスト時の両方で、すべてのドロップアウト層に0.1のドロップアウト率を使用した。

Exploring the network’s attention

ネットワークのアテンションの重みは、各入力状態をどの程度考慮するべきかを定義し、重要度の重みのベクトルとして解釈できる。
これらのアテンション重みを明示的に視覚化することで、ニューラルネットワークが入力シーケンスのどの部分に焦点を合わせることを学習したかを確認できる。
評価セットからの特定のイベントに対するこれらのアテンション層の出力（他のすべての時間ステップでの隠れ状態の合計、それらのスコアリングによる重み付け）を示すことで、ネットワークが異なるアテンションレベルで波形の異なる部分に焦点を合わせることを学習したことが明らかになる。

エンコーダーは地震信号の検出とP波、Ｓ波の相選定に最も重要な情報を持つ信号の部分を選択することを学習し、この情報は地震信号の存在を時系列で予測するために検出デコーダーに直接使用される。

Results and comparison with other methods

EQTransformerと他のディープラーニングおよび従来の方法との地震検出と相選定の性能を比較するために、113kを超えるテスト波形（地震およびノイズの例を含む）を使用した。
比較に使用されたディープラーニングモデルは、異なる訓練セットに基づく事前訓練済みモデルであり、すべてSTEADからの共通のテストセットに適用された。
モデルは異なる波形形状の地震に対して非常にうまく機能し、検出のためのグローバルな視点を保ちながら、高い時間分解能で明確な到着時間を選定することができる。
ネットワークの非常に深い構造により、ノイズレベルに対する感度が低く、背景ノイズが高い小さなイベントに対してもうまく機能する。
モデルを連続データに適用する際、テスト/予測の前に行う必要がある前処理ステップは、ギャップの埋め込み、トレンドの除去、バンドパスフィルタリング、およびデータの100Hzへのリサンプリングのみである。

訓練プロセス中に使用された拡張は、最終モデルの性能に不可欠であった。
訓練データでは、P波の到着時間がウィンドウの最初の四半期に集中し、各トレースには1つのイベントのみが含まれているが、モデルは1分間のウィンドウ内に複数のイベントが存在し、様々な時間点でうまく機能することが示された。
モデルは、ウィンドウ内にP波とS波が0.2秒存在する限り、端に発生するイベントも検出・選定できる。
拡張は、連続データ内のギャップを埋める際の急激な変化で偽陽性を生じるのを防ぐ。
モデルは、他のチャンネルが故障しているかノイズに支配されている場合や、単一チャンネルデータにも機能する。
テストセットにおける検出性能は、混同行列（補足図7）で示され、閾値0.5を使用した結果、113Kのテストサンプル中で偽陽性1件、偽陰性0件（欠損イベントなし）が報告された（補足図8）。
ディープラーニング検出器（DetNet5, Yews4, CRED7）と伝統的検出器（STA/LTA11）3つを同じテストセットに適用し、性能を比較した。提案モデルは、F1スコアの観点から他の方法よりも優れている。
CREDも畳み込みおよび再帰ユニットを含み、同じデータセット（STEAD）で訓練されたが、EQTransformerの性能には及ばなかった。これは、アテンションメカニズムの組み込みとより深いネットワークの使用が地震信号検出に有益であることを示している。
P波とS波の選定性能を、ディープラーニング自動選定器（PhaseNet8, GPD10, PpkNet5, Yews4, PickNet2）と伝統的自動選定器（Kurtosis17, FilterPicker18, AIC19）と比較した。EQTransformerはP波およびS波選定のFスコアを向上させたが、P波選定の改善がS波選定よりも顕著であった。これは、S波選定がより困難で誤差が多くなりやすいため、訓練セットでのラベリングエラーが増加する可能性があるためである。
テストセットにおける検出性能は、混同行列で示され、閾値0.5を使用した結果、113Kのテストサンプル中で偽陽性1件、偽陰性0件（欠損イベントなし）が報告された。
ディープラーニング検出器（DetNet5, Yews4, CRED7）と伝統的検出器（STA/LTA11）3つを同じテストセットに適用し、性能を比較した。提案モデルは、F1スコアの観点から他の方法よりも優れている。
CREDも畳み込みおよび再帰ユニットを含み、同じデータセット（STEAD）で訓練されたが、EQTransformerの性能には及ばなかった。これは、アテンションメカニズムの組み込みとより深いネットワークの使用が地震信号検出に有益であることを示している。
P波とS波の選定性能を、ディープラーニング自動選定器（PhaseNet8, GPD10, PpkNet5, Yews4, PickNet2）と伝統的自動選定器（Kurtosis17, FilterPicker18, AIC19）と比較した。EQTransformerはP波およびS波選定のFスコアを向上させたが、P波選定の改善がS波選定よりも顕著であった。これは、S波選定がより困難で誤差が多くなりやすいため、訓練セットでのラベリングエラーが増加する可能性があるためである。

Application to other regions

我々のモデルの訓練に使用されたSTEADデータセットには、日本の波形データが含まれていないため、日本はモデルの性能と汎化能力をテストする理想的な場所である。
2000年の鳥取地震（Mw 6.6）の余震領域をこのテストのために選択し、2000年10月6日から11月17日までの期間にHiNetの18の地震計ステーションから得た連続データに検出器/相選定モデルを適用した。
EQTransformerの予測モジュールは、特定の閾値以上の確率を持つ少なくとも1つの相（PまたはS）が存在する時に結果を出力する。ここでは、検出、P選定、S選定にそれぞれ0.5、0.3、0.3の閾値を使用した。
この期間内に21,092のイベントを検出・位置付けした。これは、同時期に手動で選定された相を用いて8521イベントを再位置付けした数と比較して2倍以上の増加である。EQTransformerにより作成されたカタログには、気象庁によって報告されたほぼすべてのイベントが含まれている。

Discussion

P波・S波選定における提案方法の優れた性能は、訓練セットの質と量、アーキテクチャ設計、アテンションメカニズム、ネットワークの深さ、訓練プロセス中に使用された拡張など、いくつかの要因に起因する可能性がある。
アテンションメカニズムは、全波形内のグローバルおよびローカルスケールの特徴を組み込むのに役立つ。より深いネットワークは、より非線形なマッピング関数の学習を通じて、より差別化された力をもたらす可能性がある。
ピッカーのテストセット結果に基づくと、エラーはノイズレベルと相関しているようである。しかし、出力確率の変動とピッキングエラー間の明確な相関関係は見られなかった。
P波の選定は、震央距離が大きい波形でより不確実性が高い傾向にある。このより高い不確実性は、訓練セット内の長距離波形が少ないことと、P波の最初の到着がDiving Waveである場合に選定が難しくなる事実に起因する可能性がある。
予測確率が低い場合、不確実性レベルが高くなり、モデルはSNRが低い、イベント-ステーション距離が大きい、またはマグニチュードが小さい場合にP波の選定に対して低い確率を出力する。この傾向はS波の選定にはあまり強くない。
訓練データの地理的位置やサイズが性能を主に制御する要因ではないことが示されている。北カリフォルニアのデータのみで訓練されたPhaseNetも非常に良い性能を示し、特定の地域のデータセットで訓練されたディープラーニングモデルが他の地域にもうまく一般化できることを示している。
30Kの波形で訓練されたPpkNet5は、はるかに大きな訓練セットを使用して構築された他のモデルと比較して、P波とS波の両方で高いFスコアを達成した。これは、ネットワークタイプや訓練プロセス、または訓練セットの質など、訓練セットのサイズよりも他の要因がより重要な役割を果たすことを示唆している。
ピッキングの精度は、ラベリングと訓練手順によってより大きく影響を受けるようである。例えば、Yews4、GPD10、PpkNet5のP波ピックの散発的なエラー分布は、特定の時間点に集中する到着時間に敏感になる訓練手順に起因する可能性がある。
従来の検知手法と比較して、ディープラーニングベースの方法は、特にS波において、ノイズが多い波形に対してより優れた性能を発揮する。異なる特性を持つモデルの比較分析を行うことは非常に困難な課題である。
従来の検知手法は到着時間のピッキング精度においては比較的良好な成績を示すが、一般にリコールが低くS波のピッキング性能が劣る。
従来の検知手法の非対称なエラー分布は、到着時間のピッキングにおける体系的な遅延による歪みに主に起因しており、これはS波において顕著である。しかし、いくつかのディープラーニングモデルと比較しても効果的であることが示されている。
伝統的なピッカーが必ずしも高速であるわけではない。例えば、2.7 GHzのIntel Core i7プロセッサと16 GBのメモリを搭載したマシンでは、Kurtosis、FilterPicker、AICピッカーはテストセット全体のピッキングにそれぞれ62時間12分、3時間25分、31時間18分を要するが、EQTransformerは2時間28分で検出/ピッキングを完了する。
EQTransformerの日本データへの適用は、モデルの高い一般化能力と精度を示している。EQTransformerによる到着時間のピックの精度は手動ピックと比較可能であり、その高い感度により検出されたイベントの数が2倍以上になる。
この結果は、地震計の1/3未満の部分のみを使用し、比較的大きなステーション間隔と単純な関連付け方法を用いても達成された。より高度なフェーズ関連付けアルゴリズムを使用すると、イベント数がさらに増加する可能性がある。この方法の効果と高効率（1ヶ月分の連続データを1ステーションで処理するのに1CPUで23分かかる）は、地震モニタリングの改善に向けた可能性を示している。

Conclusion

本論文では、階層的なアテンションモデルに基づく、地震検出と相選定を同時に行うマルチタスクネットワークを提示する。
ネットワークは、深いエンコーダー1つと3つの別々のデコーダーから構成される。2つのレベルの自己アテンション（グローバルとローカル）が階層構造でネットワークに組み込まれ、ニューラルネットワークが地震波形内の局所的およびグローバルな特徴間の依存関係を捉えて活用するのを助ける。
このモデルにはいくつかの特徴がある：(1) 地震信号の最初の階層的アテンションモデルである。(2) 56の活性化層を持ち、地震信号処理のために訓練された最も深いネットワークである。(3) 階層構造を通じてこれらのタスク間の依存関係をモデリングしながら、検出と相選定を同時に行うマルチタスクアーキテクチャを持つ。(4) 予測確率に加えて、ベイズ推論に基づく出力変動を提供する。(5) 1.2Mの地方地震観測を含むグローバルに分散した訓練セットを使用して訓練された最初のモデルである。

2024-02-22

論文要約：Phase Neural Operator for Multi-Station Picking of Seismic Arrivals

https://agupubs.onlinelibrary.wiley.com/doi/full/10.1029/2023GL106434

ライセンス　CC BY-NC 4.0 Deed | Attribution-NonCommercial 4.0 International | Creative Commons

Abstract

目的: 従来の地震波到達時間測定に基づくアプローチを改善し、地震ネットワーク全体を同時に分析することで、地震波の位相をより正確に識別する新しいアルゴリズムを開発する。
手法: 「Neural Operator」という最近開発された機械学習パラダイムに基づいた「Phase Neural Operator」と呼ばれるモデルを導入。このモデルは、空間的および時間的な文脈情報を活用して、任意の地震ネットワークのジオメトリに対して位相を同時にピックアップする。
結果: このアプローチは、多くの地震を検出し、より多くの位相到達をピックアップすることができ、測定精度も大幅に向上するなど、主要なベースラインアルゴリズムよりも優れた性能を示した。
結論: 世界中で収集されている大量の地震データセットをフル活用することの潜在的な利点を示す一例として、人工知能の領域全体で見られる類似のトレンドに従っている。

Introduction

地震学において、地震波の到達時間を特定し、地震を識別する基本的な作業が地震相の検出とピッキングです。
歴史的には、人間の分析者が手動で地震信号と地震相の到達時間をラベリングしていましたが、この作業は主観的で時間がかかり、誤りやすいものでした。
精度の高い自動地震検出方法が開発されてきましたが、ほとんどの機械学習検出アルゴリズムは単一ステーション検出戦略を使用しており、弱い振幅のイベントを検出できない、または局所的なノイズ信号を誤って検出することがあります。
最近のディープラーニングの進歩は自動フェーズピッキングアルゴリズムの精度と効率を大幅に向上させましたが、単一ステーションのニューラルフェーズピッカーの性能向上は急速に頭打ちになっています。
本論文では、Phase Neural Operator（PhaseNO）と呼ばれるアルゴリズムを紹介し、ネットワーク全体での地震検出とフェーズピッキングを目的とした一般的なアプローチを提案します。PhaseNOは、任意のジオメトリを持つ複数のステーションで異なるフェーズの到達時間を正確に測定できるように、地震波場の無限次元関数表現を学習します。

Method: Phase Neural Operator

PhaseNOは、ネットワーク全体でのフェーズピッキングのためのオペレーター学習モデルであり、有界な物理領域上の無限次元関数空間間のオペレーターを学習するよう設計されています。入力関数は空間と時間の任意の点の集合で観測された地震波場$f(x,y,t)$であり、出力関数は各点$x,y,t$でのP波とS波の到着可能性を示す確率マスク$g(x,y,t)$です。
Neural Operatorは離散化不変性を持つため、入力と出力関数を毎回異なる（任意の）メッシュで離散化しても、モデルを再学習する必要がなく、入力物理領域内の任意の点で評価することができます。
PhaseNOは、時間情報にはFourier Neural Operator（FNO）層を、空間情報にはGraph Neural Operator（GNO）を組み合わせて、地震ネットワークデータの数学的構造を自然に扱います。モデルはFNOとGNOを順番に接続し、複数回繰り返すオペレーターレイヤーのブロックで構成され、地震ネットワーク内のすべてのステーション間で十分な時空間情報の通信と交換を可能にします。

スキップ接続を使用してブロックを接続し、U字型アーキテクチャを形成します。スキップ接続は、深い層を通過せずにモデルの左部分のFNO結果を右部分のGNO結果と直接結合し、収束を改善し、より深く、過パラメータ化されたモデルを可能にします。

Results

Performance Evaluation

この研究では、PhaseNOの性能をEQTransformer（Mousavi et al., 2020）、PhaseNet（W. Zhu & Beroza, 2018）、およびEdgePhase（Feng et al., 2022）という3つの主要なベースラインモデルとの比較によって評価されている。PhaseNOは、1984年から2019年にかけての北カリフォルニア地震データセンター（NCEDC）からの地震データセットでトレーニングされ、PhaseNetと同じトレーニングデータセットが使用されている。2020年の期間にわたるサンプルテストデータセットで、PhaseNOと各ベースラインモデルが評価された。このテストデータセットには、5,769件のイベントに対する43,700のP/Sピックが含まれている。
各サンプルの時間窓は、それぞれの事前トレーニングされたモデルに基づいて選択されており、PhaseNOとPhaseNetには30秒、EQTransformerとEdgePhaseには60秒が設定されている。ピックの位置は、時間窓の中央30秒にランダムに配置されている。全てのモデルにおいて、P波とS波のピックは、予測された確率分布のピークから、事前に定められた閾値を設定することによって決定されている。各モデルは、最適なF1スコアを最大化する閾値を使用し、最良の条件下で比較されている。
PhaseNOは、P波とS波の両方において最も高いF1スコア（それぞれ0.99および0.98）を達成している。これは、テストされた全てのモデルの中で最も高い最適閾値（P波に対して0.70、S波に対して0.65）を持つことに加えて、PhaseNOが他の方法よりも地震到達を検出し、ピックする際の信頼度が高いことを示している。真のピックが利用できない場合、PhaseNOは他の方法よりも偽検出を最小限に抑え、同じ事前に定められた閾値でより多くのピックを提供することができる。

PhaseNOは、ほぼ全ての信号対雑音比（SNR）レベルで、他のディープラーニングモデルと比較してより多くの真の陽性を検出し、偽の陰性と偽の陽性のピックを少なくしている。さらにピックを生成するにもかかわらず、PhaseNOはP波とS波の両方で最小の平均絶対誤差を達成している。全体として、PhaseNOは6つの指標すべてにおいて最高の性能を発揮しており、わずかな例外が1つある。PhaseNOのP波残差の標準偏差は、PhaseNetよりも0.01秒（1タイムステップ）大きい。PhaseNOによって新たに検出されたフェーズは、信号対雑音レベルが低いため、より挑戦的なケースである可能性が高く、その結果、標準偏差が若干増加する可能性がある。
複数の代表的なイベントに対する各ニューラルフェーズピッカーの予測確率分布を比較しました。PhaseNOは、異なるイベントの大きさ、計測器の種類、波形の形状に対して非常によく機能します。

PhaseNetはいくつかの偽陽性ピックを生成しますが、これらは複数の受振器を使う方法（PhaseNOおよびEdgePhase）によって除去されます。しかし、EdgePhaseは多くの偽陰性も生成します。
時間と空間の情報を複数回入れ替えることで、PhaseNOは偽のピックを効果的に防ぎながら、真のピックの検出能力を向上させます。
PhaseNOは、他の受振器からの情報を利用して、低SNRの波形上でピックを成功させます。
S波は通常、P波のコーダに存在し、検出がより困難です。そのため、S波ではP波よりも人間のアナリストによるラベリングエラーが予想されます。

Application to the 2019 Ridgecrest Earthquake Sequence

2019年のリッジクレスト地震シーケンスにおけるPhaseNOの検出性能と汎化能力がテストされました。
南カリフォルニア地震ネットワーク（SCSN）の20ステーションにおけるEH、HH、HNセンサーの連続波形データが、2019年7月4日15:00:00から7月10日00:00:00までの期間でダウンロードされました。これは合計36の異なるセンサーに相当します。
波形データは100Hzのサンプリングレートで1時間ごとのストリームに分割されています。このデータセットは、多数のイベントが重なっているため、より難しいデータセットであるとされています。
計算量を小さくするた、、地震ネットワーク全体が2つに分割され、データの各時間ごとに2つのグラフが構築されました。36のノードが18のノードを含む2つのグラフにランダムに分割されています。
PhaseNOは一度に18ノード上で地震相の確率を予測しています。連続データは30秒の時間窓に切り出され、10秒のオーバーラップを持ち、18ノードにおいて1時間のデータに対して180の予測がなされました。
PhaseNOはPhaseNetよりも多くの意味のある移動パターンを持つピックを検出しています。これは複数のステーション間で学習された波形の一貫性によるものです。

予測後、P波とS波の両方について0.3の閾値を使用してフェーズピックを決定しました。PhaseNOは693,266のP波と686,629のS波の到着時間を検出しましたが、PhaseNetは同じ閾値と同じステーションで542,793のP波と572,991のS波の到着時間を見つけました。
検出されたピックの精度は、SCSNから手動でレビューされたピックとの到着時間を比較することによって評価されました。SCSNとPhaseNOの間のピック残差の標準偏差は、P波で0.10秒、S波で0.14秒でした。
これらの標準偏差は、PhaseNetのもの（P波で0.08秒、S波で0.13秒）よりも若干高かったです。新たに検出されたピックは信頼性が低い困難なケースであるため、PhaseNOがより大きな旅行時間差を示すのは合理的です。
候補となるフェーズ検出をGaMMAを使用してフェーズ関連付けによりイベントに変換しました。イベントごとに最低17のピックを設定して、低品質の関連付けを除外しました。これにより、PhaseNetはイベントごとに37.54のピックを持つ21,748イベントを検出し、PhaseNOはイベントごとに39.37のピックを持つ26,176イベントを検出しました。
GaMMAによって計算されたPhaseNOとPhaseNetによって検出されたイベントのマグニチュードは、両者ともに線形のガッテンベルグ・リヒター分布を示しました。結果として、Ross et al.（2019）によるテンプレートマッチングカタログよりもマイクロ地震が少なくなっています。

イベントの位置はGaMMAによって決定され、PhaseNOとPhaseNetのカタログ間で一般的に一致しており、PhaseNOによる追加イベントが実際の地震の合理的な検出であることを確認しています。
手動でレビューされたSCSNカタログをベースラインとして扱い、どれだけの地震が正確に回収されたかを評価しました。2つのイベントが3秒以内に発生した場合、それらを一致しているとみなします。
この基準により、Shelly、Ross et al.、PhaseNetはそれぞれ約81%、86%、88%のイベントに一致しました。比較して、PhaseNOのカタログは26,176イベントの合計でSCSNカタログの約94%（11,389のうち10,673）に一致し、追加イベントを含め、PhaseNOの最も高いリコールスコアを示しました。
PhaseNOは、PhaseNet、SCSN、Shellyのテンプレートマッチングカタログよりも一貫して多くのイベントを検出し、もう一つの詳細なテンプレートマッチングカタログ（Ross et al., 2019）に報告された地震の数に近づきました。
PhaseNOは、Mw 7.1の本震が発生したときに最も多くのイベントを検出し、その後の地震活動率が徐々に減少することで、複雑な地震シーケンスを照らす方法の力を示しました。
私たちのカタログは、ステーションの数と関連付けアルゴリズムの点でSCSNおよびテンプレートマッチングカタログと異なります。しかし、PhaseNOとPhaseNetからのピックは正確に同じステーションで検出され、GaMMAで関連付けられ、最も公平な比較を提供します。
2つのポストプロセッシングハイパーパラメーター、フェーズピッキングの閾値とイベントに関連付けられるピックの最小数が、カタログ内の地震の総数を制御します。より低い閾値とより小さい関連付け最小限は、より多くのイベントを提供しますが、偽陽性イベントが増える可能性があります。
PhaseNOは、同じハイパーパラメーターを使用してPhaseNetよりも一貫して多くのイベントを検出し、フェーズピッキングのために時間的情報に加えて空間情報を活用することの重要性を指摘しています。

Discussion and Conclusions

固定されたモデルアーキテクチャを持つPhaseNOは、任意のジオメトリを持つ地震ネットワークを処理できます。これは、北カリフォルニア地震ネットワークでのトレーニングと、再トレーニングなしで南カリフォルニア地震ネットワークでのモデル評価によって示されました。
PhaseNOは、一つのステーションの地震計測値ではなく、全地震ネットワークからの文脈を使用することで、人間の学習と意思決定を模倣します。これにより、特にP波のコーダに隠れがちなS波を含む低SNRデータのフェーズピッキングが大幅に改善されます。
PhaseNOは、時間情報からフェーズを識別する独特の能力を持ちます。よく知られているトランスフォーマーアーキテクチャは、Neural Operatorsの特別なケースと見なすことができます。
EdgePhaseと比較して、PhaseNOはGNOレイヤーを複数使用し、ネットワーク全体でのカーネル統合を可能にするNeural Operatorを使用して、豊かな空間特徴を抽出します。
PhaseNOの主な制限点は、一つの予測におけるステーションの数に対するメモリ使用量の依存です。空間情報はグラフ内のすべてのノードペア間で交換されるため、計算コストはノードの数に対して二次的にスケールし、複雑さはO(n^2)です。
広範囲にわたる地震ネットワークをカバーする場合、k-meansクラスタリングに基づいてステーションを選択することができます。この方法により、予測手順を大幅に加速し、特に多くのステーションが存在し、計算リソースが限られている場合にメモリ使用量を節約できます。

Supplemental

Neural Operators

ニューラルオペレーターは、無限次元関数空間間のマッピングを行うニューラルネットワークの一般化です。この新しいモデルクラスは、オペレーターに対する普遍近似定理を満たすことが証明されています。
ここでは、波動場からフェーズピックへのマップを学習するための新しいアーキテクチャを提案します。ニューラルオペレーターは一般に、入力関数をより大きな共域にマッピングするリフティングオペレーター(P)から始まります。
これらの関数は非線形カーネル統合オペレーターで反復的に操作され、最終的には隠れた表現を出力関数にマッピングする射影オペレーター(Q)を通過します。PとQは完全に接続されたニューラルネットワークでパラメータ化され、物理領域上で点ごとに作用します。
反復カーネル統合の基本式は、線形積分オペレーターと非線形活性化関数の組み合わせです。各積分オペレーターは以下の形式を持ちます：

ここで、vとuはそれぞれ中間入力と出力関数であり、κはカーネル関数です。オペレーターへの入力としてを定義します。カーネルをパラメータ化する方法は複数あります。
地震ネットワークによって記録された地震波形を入力関数fとして扱い、時間領域では規則的なメッシュ、空間領域では不規則なメッシュで離散化します。私たちのアーキテクチャでは、空間と時間でカーネル関数を別々に計算します。

Fourier Neural Operators

時間領域の規則的なメッシュに対して、カーネルをフーリエ空間でパラメータ化し、高速フーリエ変換を使用してカーネル積分オペレーターを計算し、ほぼ線形の複雑さで効率的な計算を実現します。
畳み込み定理から、次の式が得られます
ここでFとF^{−1}はフーリエ変換とその逆変換を示します。Rϕは、ϕによってパラメータ化されたκのフーリエ変換です。(時間領域での畳み込み操作は周波数領域での乗算）
各層で局所的に作用する活性化関数σを用いて、単一のFNO層の更新は次のようになります:、ここでWは局所的な線形オペレーターです。
実際には、フーリエ級数を最大モード数で切り捨て、Rをいくつかの低いモードでパラメータ化します。入力vから始まり、1つのFNO層には2つの並列分岐が含まれます：一方の分岐はフーリエ空間でカーネルを計算し、グローバル統合を実行し、もう一方は入力に対して点ごとの線形変換Wを適用します。2つの分岐からの結果は、σを適用する前に加算されます。
PhaseNOは、U-NOアーキテクチャに類似した7つのFNO層を利用します。各FNO層のモード数は24、12、8、8、12、24、24です。
各ノードで離散化されたuの幅（チャネル数）は、Rϕの次元に応じて変化します。各FNO層で、離散化されたuは48×3000、96×750、192×200、96×750、48×3000、48×3000、48×3000の次元を持ちます。
すべてのFNO層は、最後の層を除いて、ガウス誤差線形単位による非線形性を含みます。最後の層では活性化関数は適用されません。簡単のため、最後のFNO層は図1には描かれていません。

Graph Neural Operators and the message passing framework

カーネル統合は、グラフニューラルネットワークの一般化されたメッセージパッシングによるメッセージの集約として見ることができます。空間領域の$f(x,y,t)$は地震ネットワークのジオメトリに基づいて離散化されるため、カーネルをGNOでパラメータ化し、メッセージパッシングフレームワークで実装します。
任意のジオメトリを持つ地震ネットワークをグラフとみなします。地震ネットワーク内の各ステーションはグラフのノードです。ノードの特徴v(x)が与えられたとき、ノードxiの値v(xi)を次の平均集約によって値u(xi)に更新します

ここでτとϕは多層パーセプトロン(MLP)のような異なる微分可能関数を示します。N(x_i)はxiの近傍の数を表します。
グローバルな依存関係を捉えるために、グラフ内の各ノードをグラフ内のすべてのノードに接続するグラフを構築し、総エッジ数を$n^2$にします。つまり、N(xi)は地震ネットワーク内のすべてのステーションを含み、自己ループも含むことを意味します。
エッジ特徴はe_ij=ϕ(v(x_i),v(x_j))によって計算されます。
は学習可能なパラメータのセットを持つ非線形関数です。4cニューロンを含む1つの隠れ層を持つMLPをϕとして選択します。
すべてのエッジ特徴（メッセージ）が利用可能になると、ターゲットノードx_iはすべてのメッセージを収集し、平均操作でそれらを集約します。最後に、v(x_i)と集約されたメッセージの連結を入力として使用して、別のMLPでx_iのノード特徴を更新します。
メッセージパッシングにより、隣接ノード間で情報の交換が可能になり、隣接ノードによって共有される関連信号が強化されます。

Training and test datasets

高度なディープラーニングモデルのアーキテクチャを完全に活用するためには、十分な品質と量を持つトレーニングデータセットが必要である。地震ネットワークの波動場特性を考慮に入れ、グラフ型サンプルに特化した効果的なデータ拡張戦略が考案されている。初めに、グラフレベルでイベントを積み重ね、異なるステーションでの到着パターンを各イベントに対して保持することを目指している。この方法により、グラフ内の異なるステーションの波形は異なる数のイベントで構成される場合がある。次に、地震はべき乗則に従い、ほとんどのイベントが小さく、全地震ネットワークではなく数ステーションでのみ観測される可能性がある。そのため、グラフ内のランダムな位置に仮想ステーションを追加し、ノイズ波形を用いてPhaseNOを正則化することが重要である。
トレーニングデータセットは、1984年から2019年までのNCEDCからの三成分地震波形と、STanford EArthquake Dataset（STEAD）からの三成分ノイズ波形で構成されている。地震データはイベントごとにダウンロードされ、人間のアナリストによってP波とS波の到着時間がピックされたステーションが含まれている。一部のセグメントが欠落している場合はゼロで埋められる。各成分は、平均を除去し、標準偏差で割ることによって正規化される。フェーズ到着をラベル付けするために、三角形の形状をした確率関数が使用される。手動でピックされたP/S到着での確率は1とラベル付けされ、手動ピックの前後で0に線形に減少する。各ピックに対して、0より大きい確率の持続時間は0.4秒で、最高確率は時間窓の中央に中心される。単一ステーションの地震計測値を1つのサンプルとして扱う代わりに、地震ネットワーク内のすべてのステーションでグラフを構築し、そのグラフを1つのサンプルとして使用する。
トレーニング中にデータ拡張が実行される。異なるステーションでの移動パターンを保持するために、個別にダウンロードされたイベントは以下のステップで積み重ねられる：
- イベントAを記録するすべてのステーションからランダムにステーションAが選択される。
- ステーションAによって記録されたすべてのイベントからランダムにイベントBが選択される。
- 2つのイベントの振幅にαとβ（0.1 < α < 0.9, 0.1 < β < 0.9, α + β = 1）の重みがランダムに割り当てられる。
- 2つのイベントを積み重ねるために、ランダムに時間シフトが選択される。
- 両方のイベントが同じステーションで記録されている場合、イベントAとイベントBが積み重ねられる。
- 1つのイベントのみを記録する他のステーションでの波形が保持される。
地震ネットワーク内では通常、複数のステーションが両方のイベントを記録している。イベントBはイベントAを記録した一つのステーションに基づいて選択されるが、より多くのイベントを積み重ねることが可能である。
トレーニングデータセットの約66%のサンプルに2つまたは3つのイベントが含まれている。最大16の仮想ステーションをランダムな位置に生成し、これらにノイズ波形を割り当てる。
ノイズデータはSTEADの235Kのノイズサンプルからランダムに選択される。地震波形のみを含むサンプルが6.25%であり、残りのサンプルには地震ネットワーク内の異なるステーションで記録された地震波形とノイズ波形が含まれている。
一つのグラフ型サンプル内の各ステーションのイベント数は0から3の範囲である。地震ネットワークには三成分と一成分の地震計が含まれている場合があり、ランダムに選択された複数のステーションを一成分ステーションとみなす。
各サンプルには異なる数のステーションが含まれ、計算コストを節約するために一つのグラフ内のステーション数は5以上32以下に保持される。全ステーションの30秒の波形をランダムな開始時間で切り出し、ウィンドウ内のフェーズの位置が変化する。
サンプリングレートは100Hzであり、入力波形と出力確率は各ステーションの各成分について3000のデータポイントを持つ。トレーニング用には合計57Kのグラフがある。
テストデータセットには、2020年のNCEDC地震データセットで構築された5769のサンプルが含まれており、データ拡張なしでトレーニングデータセットと同様の方法で波形が前処理される。テストデータセットの各サンプルには、複数のステーションで記録された一つのイベントのみが含まれている。

Machine learning for seismic exploration: Where are we and how far are we from the holy grail?

Abstract

Introduction

SYNTHETIC DATA SETS FOR SEISMIC APPLICATIONS

SEISMIC PROCESSING

Preprocessing

Quality control

Denoising

Trace interpolation

Event separation

Processing

Velocity model buildingFrequency extrapolation

VMB from raw data

First-break picking

VMB from groundroll

Passive seismic data

SEISMIC ATTRIBUTES IN ML-BASED INTERPRETATION APPLICATIONS

SEISMIC INTERPRETATION

Structural interpretations

Fault detection

Horizon picking

Salt and geobody identification

Lithologic interpretations

Lithofacies classification

Stratigraphic sequence identification

Petrophysics, rock physics, and inversion

Impedance and elastic parameters

4D data

Disucussion

Conclusion

Masked Autoencoders Are Scalable Vision Learners

Abstract

Introduction

Related work

Approach

ImageNet Experiments

Main Properties

Decoder design

Mask token

Reconstruction target

Data augmentation

Mask sampling strategy

Training schedule

Comparisons with Previous Results

Comparisons with self-supervised methods.

Comparisons with supervised pre-training

Partial Fine-tuning

Transfer Learning Experiments

Discussion and Conclusion

物話風まとめ（Chatgpt作）

Using Deep Learning for Flexible and Scalable Earthquake Forecasting

Abstract

Introduction

Model Architecture and Benchmark

Results

Synthetic Data

San Jacinto Fault Earthquake Catalog and Scaling

Comparative Performance on Other Data Sets

Southern California Earthquake Catalog and 14-day Forecasts

Discussion

Conclusion

おまけ 日本昔話風 RECAST 要約（by chatgpt）

Earthquake transformer—an attentive deep-learning model for simultaneous earthquake detection and phase picking

Abstract

目的

方法

結果

結論

Introduction

Result

Network architecture

Data and labeling

Training

Exploring the network’s attention

Results and comparison with other methods

Application to other regions

Discussion

Conclusion

論文要約：Phase Neural Operator for Multi-Station Picking of Seismic Arrivals

Abstract

Velocity model building
Frequency extrapolation

おまけ　日本昔話風　RECAST 要約（by chatgpt）