論文要約：Machine learning for seismic exploration: Where are we and how far are we from the holy grail?

Machine learning for seismic exploration: Where are we and how far are we from the holy grail?

https://library.seg.org/doi/10.1190/geo2023-0129.1

Farbod Khosro Anjom1, Francesco Vaccarino2, and Laura Valentina Socco1

¹DIATI, Politecnico di Torino, Torino, Italy.

²DISMA, Politecnico di Torino, Torino, Italy.

https://library.seg.org/doi/10.1190/geo2023-0129.1

ライセンス　

CC BY 4.0 Deed | Attribution 4.0 International | Creative Commons

Machine learning for seismic exploration: Where are we and how far are we from the holy grail?
Abstract
Introduction
SYNTHETIC DATA SETS FOR SEISMIC APPLICATIONS
SEISMIC PROCESSING
SEISMIC ATTRIBUTES IN ML-BASED INTERPRETATION APPLICATIONS
SEISMIC INTERPRETATION
Lithologic interpretations
- Lithofacies classification
- Stratigraphic sequence identification
Petrophysics, rock physics, and inversion
- Impedance and elastic parameters
- 4D data
Disucussion
Conclusion

Abstract

目的: 地震探査における機械学習（ML）の応用が他の産業分野よりも速く成長していること、および地震処理と解釈のワークフローにおけるほぼ全てのステップにMLアルゴリズムが実装されている現状を、文献ベースで分析し、地震アプリケーションにおける主要なML推進の詳細な概観を導き出す。
手法: SEGとEAGEの文献リポジトリに公開された既存のMLベースの地震処理と解釈に関する文献分析を行い、各公開からML実装とパフォーマンスに関する様々なメタデータを抽出。
結果: 現在の地震探査におけるML実装は、処理と解釈のワークフローにおける画期的な変更ではなく、個々のタスクに焦点を当てていることが示された。MLアプリケーションの主なターゲットは、地震処理においてはノイズ除去、速度モデル構築、地震波初動のピッキングであり、地震解釈においては断層検出、岩石相分類、地体識別である。
結論: 計算能力の効率性、データ準備の簡易性、MLモデルの実データテスト率、ML方法の多様性などの指標を用いて、現在のMLベースの地震処理と解釈タスクの効率性、有効性、適用性を概算した結果、MLベースのノイズ除去と周波数外挿は効率が高く、MLベースの品質管理が他の処理タスクと比較してより効果的で適用可能である。解釈タスクでは、MLベースのインピーダンスインバージョンが高い効率を示し、断層検出に高い効果があり、MLベースの岩石相分類、層序の同定、岩石/岩石特性の逆転は他の解釈タスクの中で高い適用性を示している。

Introduction

地震処理と解釈は、専門家によって各データセットに合わせて、調整された一連の標準ステップを使用するワークフローに依存している。
最適な処理・解釈ワークフローは、常に進化する技術、科学的知識、技術的能力、才能、直感の混合によって構築される。
データセットの増大と、取得から納品までの時間を短縮する必要性、および他方で計算設備のパワーの増大が、業界と研究者にデータ駆動型メソッドの使用を非常に魅力的にしている。
機械学習（ML）メソッドは、入力と出力のデータ空間の間の複雑な関係を最適化することによってデータの処理と解釈を行う方法に依存し、物理現象のモデリングに対してしばしば無関心である。
MLは「最適化に基づく非常に広範な数値ツールに過ぎない（Alkhalifah,2022）」と定義され、従来のフーリエ変換などの変換や表現の代わりに、機械が特定の問題に対して調整された最適化を通じて独自の変換を開発する。
MLの導入の主な動機は、現在の技術や方法のいくつかの欠点（時間がかかる。人により結果が変わる属人性がある）を軽減することにある。
新しい発展を、地震探査における潜在的なHoly grail（究極の理想）として捉え、機械が効率的に最も有益なモデルを自動的に提供する。
地震探査におけるMLの実装には、関連する多くの課題があり、モデルと地震探査データの関係の複雑さは、ML技術で現在解決されているほとんどの問題とは比較にならない。また、他の分野からのMLモデルを地震処理と解釈のタスクに微調整すること（転移学習とも呼ばれる）は、ほとんど役に立たない。
地震探査においては、実際のデータのグラウンドトゥルースが存在しないため、最初からMLモデルを訓練することは、豊富なラベル付きデータに大きく依存している。
現在のML実装の状態は、主に従来のワークフローの処理または解釈ステップをより効率的で、効果的で、偏見のないものにすることに専念している。
過去10年間で、地震処理と解釈のための機械学習（ML）技術の使用が指数関数的に拡大しており、他の産業と比較してもそのペースは速い。

しかし、既存のMLベースの地震探査アプリケーションは効果的かつ効率的であるか？MLアルゴリズムは、従来の地震探査ワークフローを大きく変更し、中間ステップを迂回してエンドツーエンドのアルゴリズムを提供するか？
これらの重要な疑問に答えるために、本論文では地震探査の文脈における既存のMLベースのアプリケーションの明確なイメージを作成する。
2010年から2021年の間に、地震探査分野の主要な文献リポジトリ（SEGデジタルライブラリとEAGE EarthDoc）を検討し、500以上のMLベースの出版物を分析した。

ほとんどの出版物は、EAGE年次会議、SEG技術プログラム、およびGeophysicsからのものである。
出版物のメタデータを収集して分析し、対象となる地震処理/解釈タスクの種類、問題と解決策の次元性（一次元、二次元、または三次元）、実装されたMLモデルとそのアーキテクチャの特徴、最適化方法、データ形式とデータの条件付け、入出力のサイズ、訓練サンプルの数、属性特徴、計算能力要件、未知データへのモデルの一般化、訓練とテストデータの種類（合成および実データ）、および論文の種類、所属と企業の関与、合成データシミュレーション方法とシミュレートされたノイズ、訓練のためのデータ拡張などの基本的な出版情報に焦点を当てた。
重複を避け、EAGEおよびSEGに同じ著者から提出された類似の抄録とジャーナル論文は無視した。
出版物を処理と解釈のアプリケーションに分けた。この非常に一般的な表現から、いくつかの研究トレンドを推測することが可能である。
文書の半数以上（53%）が解釈アプリケーションに関連しており、これは同じ期間内の一般的な（MLベースおよび非MLベースの）研究焦点とは対照的である。2010年から2021年の間のEAGEおよびSEGのリポジトリによると、解釈に専念している出版物は全体の44%に過ぎない。
MLベースの解釈の実装の主な動機の一つは、タスクがコンピュータビジョンのものと似ていることである。さらに、解釈は人間の関与の観点から地震探査で最も時間を要する側面である。その結果、解釈タスクの自動化はML方法の実装のもう一つの動機となっている。
一方、処理ステップでは、大容量データ（生のプレスタック）が伝統的な処理ワークフロー内で多くのデータ駆動型の定量的な解析手法の開発につながっている。それにもかかわらず、速度モデル構築（VMB）のような処理ステップは通常、計算上非常に要求が厳しい。
処理タスクへのMLの実装は、通常、計算効率を向上させ、従来のものよりも高い精度を持つ競争力のある解決策を作成することを目指している。もう一つ注目すべき側面は、地震探査アプリケーションの研究と開発における探査会社からの大きな関心であり、これがこれらのアプリケーションの主な推進力となっている。
MLベースの処理アプリケーションのほぼ半数（47%）が直接、または企業との協力によって開発されているのに対し、MLベースの解釈アプリケーションにおける企業の関与は66%に増加している。

MLモデルの訓練において合成データが重要な役割を果たしているため、MLベースの地震探査に使用されている合成モデルと関連データの短い概要を提供する。
入力として適切な属性を使用することで、MLベースの解釈アプリケーションを強化できる。MLベースの解釈調査における属性の使用を調査し、属性選択に使用される重要な次元削減方法を説明する。
「議論」セクションでは、抽出可能な統計データと説明されたアプリケーションに基づいて、MLベースの処理と解釈タスクの現在の効率、適用性、および有効性を近似することを目指す指標を定義する。
MLとディープラーニングの用語と説明に関しては、非常に豊富な用語集とオンライン資料が利用可能である。用語とMLおよびディープラーニングアルゴリズムの簡単な説明にはGoogle Developerの用語集（Google, 2023）、MLの監視されたアルゴリズムと監視されていないアルゴリズムについてはscikit-learn（Scikit-learn, 2023）を推奨する。
ディープラーニングメソッドの詳細な説明には、Goodfellow et al. (2016)とAggarwal (2018)を、MLメソッドの包括的な説明には、Kroese et al. (2019)とKelleher et al. (2020)を参照することが推奨される。
地震学におけるMLメソッドの有用な概観は、MousaviとBeroza (2022)によって提供されている。MLとディープラーニングアルゴリズムの実装の観点からは、Kerasとscikit-learnプラットフォームのガイドラインを推奨する。

SYNTHETIC DATA SETS FOR SEISMIC APPLICATIONS

地震処理と解釈のためのMLの訓練段階での合成地震データセットの使用は、実データのラベリングが困難であること、ラベル付けされた実データに関連するバイアス、そして異なる地質設定を代表するオープンアクセスの現場データの欠如が理由で急速に増加している。
合成データセットは、デノイジング、周波数外挿、断層検出などのほとんどのアプリケーションで自動的または半自動的にラベル付けすることができる。合成データの数値モデリングにおけるバイアスを無視すると、合成ラベル付きデータはグラウンドトゥルースとして、結果としてバイアスのないデータと考えることができる。この仮定は、数値モデリングが既に多くの従来のワークフロー（例：全波形反転[FWI]やインピーダンスインバージョン）の一部であるため、妥当である。
しかし、合成ラベル付きデータのみで訓練されたMLモデルは、合成データと実データの分布の不一致により、実データセットに適用した際に性能が低下する可能性がある。Alkhalifah et al. (2022)は、この問題を解決し、実データにおけるMLモデルの性能を向上させる可能性がある、合成データと実データの間のギャップを埋めるためのドメイン適応（Domain Adaptation）原則を使用した戦略を提案している。
地震処理の問題では、通常、弾性/音響数値ソルバーからの生の合成データが考慮されるが、解釈ステップでは計算効率がはるかに高いため、1D畳み込みモデルの使用がより一般的である。
多くの現実的な合成モデルが文献で紹介されており、ほとんどの場合、オープンアクセスの生データも利用可能である。図4は、Marmousi I、Marmousi II、およびSEG Advanced Modeling Program (SEAM)モデルが、MLベースの地震処理と解釈アプリケーションで使用される合成モデルの約70%に相当することを示している。

SEISMIC PROCESSING

文献によると、地震処理の異なるステップでMLの使用が多様であり、特定の技術的問題は定期的にMLで対処されているが、多くの他の問題に対するMLの適用はまだ限定的である。
そこで、様々な処理タスクへのMLの適用に関する出版物を分析し、公開された例に基づいて、地震処理を前処理、処理、速度モデル構築（VMB）、およびPassive　Seismic調査の4つの主要カテゴリーに分けた。前処理とVMBは、デノイジング（22%）、トレース補間（11%）、生データからのVMB（14%）、FWIのための周波数外挿（6%）、最初のブレークピッキング（9%）、イベント分離（6%）、地面ロールを使用した近表面速度モデルの推定（6%）、品質管理（QC）（4%）に主に焦点を当てた、MLベースのアプリケーションの82%を占める。
異なるML方法の選択も考慮され、特定のタスクに最も使用されている方法を特定した。特定のタスクでは、畳み込みニューラルネットワーク（CNN）以外の方法の使用が無視できる処理ステップもあることが興味深い。
処理のために公開された全てのアプリケーションを分析し、サブカテゴリーとそのシェアを特定した。公開されたアプリケーションの例の中で、技術革新、効率およびMLモデル選択の観点から最も関連性の高いもの、および結果の意義を選択した。各処理ステップについて、以下で最も重要なアプリケーションと技術的な問題を説明する。

Preprocessing

Quality control

品質管理（QC）アプリケーションの多く、例えば異常トレース検出では、プレスタックの生データが考慮されるため、自動かつ迅速なアプローチの使用が非常に重要である。
MLベースのQCアプリケーション（図5の外側の円）は、主にノイズ認識（Farmani and Pedersen, 2020; Walpole et al., 2020）、異常トレースの識別（Damianus et al., 2020）、および誤った最初のブレーク検出（Duan et al., 2018）に焦点を当てている。ノイズ検出により、ノイズのみを認識するステップと、デノイジングを行うプロセスのことを意味する。
ノイズ検出は、分類と回帰の問題として扱われる。Martin et al. (2021)は、ラベル付けされた地震データの2Dパッチをデータの4クラス（すなわち、信号、信号とノイズ、ノイズ、マスク）に分類するためにCNN U-Netアーキテクチャを使用する。一方、Walpole et al. (2020)は、入力トレースのノイズレベルを定義する単一の出力ノードを持つCNN InceptionV3アーキテクチャを考慮する。異常トレース検出のML実装は、教師なし（Hou et al., 2019; Damianus et al., 2020）および教師あり（Vishwakarma, 2021）アルゴリズムを使用して実装されている。

Denoising

ノイズを除去する手法は多くの進歩を遂げているが、多くのパラメータ設定を含み、適切に選択されない場合、非効率である。しかし、MLベースのノイズ除去は地震以外の画像デノイジングで長い歴史がある（Elad and Aharon, 2006; Vincent et al., 2010; Chen et al., 2014）。
MLベースの地震探査データでのノイズ除去は、主にランダムノイズとグラウンドロールの減衰に焦点を当てている。
教師ありCNNノイズ除去モデルは、ランダムデノイジング（Wu et al., 2019b; Yu et al., 2019）、マルチプル除去（Wang and Nealon, 2019）、グラウンドロール減衰（Jia et al, 2018; Li et al., 2018a; Yu et al., 2019）、海洋データの地震干渉およびうねりノイズ除去（Slang et al., 2019; Brusova et al., 2021）に適用されている。
DnCNNアルゴリズムは画像デノイジングアプリケーションで非常に一般的であり、通常はノイズ（残差データ）が対象であり、クリーンデータではない（Zhang et al., 2017）。予測されたノイズをノイズのあるデータから差し引くと、地震イベントの詳細がよく保存される。
Generative adversarial network（GAN）モデルもランダムデノイジング（Alwon, 2018）とグラウンドロール減衰（Si et al., 2020）に定期的に使用され、通常は半教師あり方式で実装される。ただし、Ovcharenko and Hou (2020)は、GANモデルがトレース補間にはうまく機能するが、ランダムノイズ除去に関してはCNN（U-Netアーキテクチャ）がGAN（U-GANアーキテクチャ）よりも優れていることを示している。
教師なしデノイジングオートエンコーダー（DAE）モデルは、地震ランダムノイズのデノイジングに他の一般的な方法である（Liu et al., 2020a; Saad and Chen, 2020; Birnie et al., 2021; Gao et al., 2021）。DAEは、訓練データを意図的にノイズで汚染し、その後、汚染されたデータを有用な特徴にエンコードし、クリーンデータを再構築してランダムノイズを除去する特定のタイプのオートエンコーダーモデルである。
Saad and Chen (2020)は、DAEを合成データセットで教師あり方式で事前訓練し、その後、カスタマイズされた損失関数を使用してフィールドデータセットで教師なし方式で微調整する。このアプローチは自己教師ありトレーニングとも呼ばれる。彼らは、DAEがf-x特異スペクトル分析（SSA）（Oropeza and Sacchi, 2011）およびf-xデコンボリューション（deconv）（Canales, 1984）のベンチマークアルゴリズムと比較してデノイジングタスクで優れた性能を発揮することを示している。特に、DAEモデルはデノイジングプロセス中に有用な信号を他の2つの方法と比較してよりよく保存する。

Trace interpolation

現在、ランダムにまたは規則的に欠落しているトレースを回復することを目的としたいくつかの補間方法が存在する。これには、スパース変換法（Duijndam and Schonewille, 1999）、周波数空間フィルター法（Spitz, 1991）、ランク削減法（Trickett et al., 2010）が含まれる。それぞれの方法は、線形性、疎性、サンプリングの規則性などの特定の仮定の下で効率的である。
教師ありMLのデータ補間実装は、ラベル付けされたデータを自動的に準備できるため、他のMLベースの処理アプリケーションと比較してはるかに簡単である。通常、ショットギャザーからトレースをランダムまたは規則的に自動的に除去して入力データを作成し、完全なショットギャザーやそのパッチを出力として考慮する。
CNNはこれらのアプリケーションで最も一般的なモデルである（Mandelli et al., 2018; Wang et al., 2018a; Wang et al., 2019a; Zhang et al., 2020b）。Mandelli et al. (2018)は、CNNベースの補間器の結果を、10%、30%、50%のトレースが欠落している地震ショットギャザーフィールドデータセットに適用されたベンチマークの多チャンネルSSA アルゴリズム（Oropeza and Sacchi, 2011）と比較し、MLベースの結果の信号対雑音比（S/N）は、すべてのケースで平均して70%以上高かった。
地震データ再構築のための別の一般的なモデルはGANであり（Alwon, 2018; Chang et al., 2018; Garg et al., 2019; Ovcharenko and Hou, 2020; Wei et al., 2021a）、通常は半教師あり方式で実装される。Ovcharenko and Hou (2020)によるCNNとGANモデルの補間に関する比較は、ノイズの多いデータの弱いイベントを再構築する場合のGANの優れた性能を示唆している。
データ補間は、サポートベクター回帰（SVR）（Jia and Ma, 2017）、長短期記憶再帰ニューラルネットワーク（LSTM-RNN）（Kuijpers et al., 2020; Yeeh et al., 2020）、オートエンコーダー（Wang et al., 2020）、トランスフォーマー（Harsuko and Alkhalifah, 2022）の方法を使用しても行われる。Jia and Ma (2017)は、訓練の性能をさらに向上させ、再構築されたデータのS/Nを高めるために、データ駆動型タイトフレームと古典的なSVR アルゴリズムを組み合わせる。Harsuko and Alkhalifah (2022)は、地震データを処理するために事前訓練と微調整手順を含むトランスフォーマーモデルを作成する。彼らは、トレースの最初のブレークピッキングやデノイジングなど、さまざまな処理タスクに必要な特定のデータの有用な特徴を格納するために、自己教師あり方式でデータを事前訓練する。彼らは、自然言語処理からのマスク言語モデリングの概念を使用してMLモデルを事前訓練する。この文脈では、地震セクションは文として、トレースは個々の単語として扱われる。事前訓練されたモデルは、欠落しているトレースを再構築するだけでなく、下流の処理タスクのための有用な特徴を抽出することができる（ファインチューニングステージ）。

Event separation

MLベースの地震イベント分離タスクは、P波とS波の分離、回折、およびデブレンディングに焦点を当てている。従来のP波とS波の分離アルゴリズムは、遠方のオフセットでうまく機能するために正確な速度モデルを必要とする。
MLベースのP波とS波の分離では、CNN（Xiong et al., 2020）およびGAN（Wei et al., 2021b）ニューラルネットワークの枠組みにおいて、主に多チャンネル入力と出力が考慮される。入力チャンネルには、データの水平および垂直成分が含まれ、出力チャンネルには分離されたS波とP波が対応する。
従来の回折分離方法は、反射波と屈折波の異なる運動学的特性を利用し、反射データを分離しようとするが、データに残るノイズが回折データと同じレベルのノイズを持つことがあり、屈折を覆い隠す可能性がある。また、これらの分析モデルは計算上非常に高価である。最近、地震ギャザーから回折データを認識するためのMLアルゴリズムの使用に注目が集まっている。ほとんどのアプリケーションは、反射データと回折データを分離するためにCNNをスキームとする教師ありアプローチを使用する。GANモデルなどの半教師あり方法もこのタスクに一般的な方法である。
伝統的なデブレンディングには最適化されるべき多くのステップが含まれ、計算上非常に高価である。レビューされたすべてのMLベースのデブレンディングアプリケーションはCNNモデルを考慮し、生のショットギャザーを入力とし、デブレンドされた結果を出力として教師あり方式でモデルを訓練する。ブレンドデータの合成データシミュレーションが複雑であるため、ほとんどのアプリケーションは訓練段階で実データのみを考慮する。

Processing

地震処理は大きく自動化されており、その結果、この地震探査ワークフローの段階を対象としたMLアプリケーションは少数である。図5では、デコンボリューション、マイグレーション、スタッキングに焦点を当てたMLベースのアプリケーションの割合を示す。
Chen et al. (2019)とLu et al. (2019)は、地震ウェーブレットを推定するために多層パーセプトロン（MLP）を使用し、Xiao et al. (2020)は、スパーススパイクデコンボリューションを実行するためにCNNを検討する。ほとんどすべてのMLベースのマイグレーションアプリケーションは、最小二乗マイグレーション（Liu et al., 2020b）と最小二乗リバースタイムマイグレーション（Huang and Huang, 2021; Torres and Sacchi, 2021; Vamaraju et al., 2021）の実行に焦点を当てる。
Cheng et al. (2020)は、マイグレーションステップの前提条件を対象とし、成功したマイグレーションに必要なフレネル位置を見つけるためにCNNモデルを使用する。
スタッキングは既に完全に自動化され、計算上合理的なプロセスである。それにもかかわらず、スタックされるショットの数がS/Nを大幅に増加させ、地震画像を強化するのに十分ではない場合がある。スタッキング能力をさらに高めるために、Aharchaou et al. (2021)は、ポストスタックデータの類似した小さなパッチを見つけ、これらのパッチをスタックして地震画像を強化するCNNモデルを開発する。
別の観点から、スタッキングは時間解像度の問題と見なされ、データの高周波数を回復することによって地震画像を強化することができる。Halpert (2018)とZhang et al. (2019)はGANモデルを、Choi et al. (2021)はCNNモデルを使用し、Yuan et al. (2021)は高周波データを回復するために順次CNNスキームを検討する。前者の3人の著者はポストスタックマイグレーションデータを入力として考慮しているが、Yuan et al. (2021)は生データの高周波数を回復することを目指している。

Velocity model building
Frequency extrapolation

低周波データはFWIの性能を大幅に向上させ、サイクルスキッピングを軽減することができる。最近、低周波データを回復するための重要な研究が行われており、エンベロープ計算法（Wu et al., 2014）、位相追跡法（Li and Demanet, 2016）、指数減衰法（Choi and Alkhalifah, 2015）に分類される。
これらのアプローチは、高周波と低周波の間の本質的な関係を利用していない。周波数外挿のタスクに対して、MLベースのアプリケーションが注目を集めている。訓練データは、フルバンド幅データにローカットフィルターを適用することで自動的に生成される。
ほとんどのMLベースの周波数外挿アプリケーションはCNNモデル（Kazei et al., 2019; Ovcharenko et al., 2019; Fang et al., 2020; Sun and Demanet, 2020）を考慮しており、RNN（Fabien-Ouellet, 2020）や物理に基づいたニューラルネットワーク（Hu et al., 2020）などの他のスキームはまれに使用される。
既存のアプリケーションは、MLアーキテクチャへの入力データのさまざまな革新的な表現を使用する。Ovcharenko et al. (2019)は、周波数外挿を対象周波数のスペクトル値の推定として扱う。彼らは、入力周波数よりも低い単一の周波数のスペクトル値を推定するために、34個の離散周波数でのスペクトルの実数値と虚数値を入力として考慮する。外挿されたデータにFWIを実行すると、低周波成分が初期モデルの大規模な誤差の修正と反転の収束に大きく役立ったことが示された。
このアプローチの問題点は、各周波数回復に対して別々のMLモデルを訓練する必要があることである。Sun and Demanet (2020)は、CNNスキームの入力と出力として、それぞれ高周波要素のみを持つ単一トレースとフルバンド周波数要素を考慮する。Fang et al. (2020)は、入力として高周波要素を持つ生データの2Dパッチと、出力としてフル周波数バンドのパッチを使用する。彼らは、合成SEG/EAGEオーバースラストモデルと実地データの両方で周波数外挿とFWIをテストし、CNNモデルからの外挿されたデータのFWIが、高周波データを使用した場合と比較して層の連続性が向上した。Ovcharenko et al. (2022)は、同様のアプローチを使用して、実際の海洋ストリーマーデータで2.5 Hzまでの地震データを推定し、FWIを実行することができる。

VMB from raw data

最近、生の発振データからの速度モデル構築（VMB）に対するMLベースのアプローチが注目を集めており、FWIに代わるMLモデルを提供することを目指している。これらのMLモデルの入力は発振ギャザーであり、出力は速度モデルである。
実データセットの正解となる速度構造モデルが存在しないため、すべての教師あり実装は訓練段階で合成データセットを使用する。最も人気のあるアプリケーションでは、入力の生データと目標の速度モデル間の非線形関係をモデル化するためにCNNとMLPスキームが使用される（Lewis and Vigh, 2017; Araya-Polo et al., 2018; Yang and Ma, 2019; Kazei et al., 2020; Li et al., 2020）。
これらのアプリケーションでは、目標と推定される速度モデル間の損失を計算することによって、MLモデルのパラメータが反復的に更新される。深層GANアルゴリズムも、豊富なラベル付きデータの可用性の限界に対処するVMBタスクに適用される（Mosser et al., 2018）。
Araya-Polo et al. (2019)は、少数の変数を使用して任意の速度モデルを生成し、それに対応する地震データを有限差分アルゴリズムを使用して計算するためにGANモデルを訓練する。Yao et al. (2023a)は、各反復での更新を制約するために、異方性FWIの感度を増加させるためにGANを使用する。
物理に基づくアプローチでは、MLベースのモデルで地震波場の物理を考慮し、シミュレートされた真の地震データ間の損失を計算し、モデル-データ関係に物理的制約を課すことによって、MLモデルの訓練セットへの依存を減らす（Costa Nogueira Junior et al., 2019; Xu et al., 2019; Jin et al., 2020; Sun et al., 2021）。
フィジックスインフォームドニューラルネットワーク（PINN）は、物理問題を支配する偏微分方程式を近似することができる特定のタイプの物理ベースのニューラルネットワークであり、VMBので使用されはじめている（Costa Nogueira Junior et al., 2019; Xu et al., 2019; Jin et al., 2020; Voytan and Sen, 2020; Rasht-Behesht et al., 2022）。

First-break picking

トラベルタイムトモグラフィーによく使用されるファーストブレーク（地震初動）ピッキングは、複雑な近表面をイメージングし、対応するスタティックスを計算するための地震探査ワークフローの重要なステップである。多くのデータ駆動型の半自動アプローチが導入されており、トレースの様々な特徴を考慮して最初の到達波をピックする。
ファーストブレークピッキングは本質的に二項問題である。ほとんどのMLベースのアプリケーションでは、単一のトレースではなく、地震データのパッチが入力として考慮され、出力ラベルは入力と同じサイズの2Dマトリックスであり、最初の到達波前の記録データ（ノイズ）とデータを分離するセグメンテーションマスクを表す。
他のアプリケーションでは、単一トレースまたはトレースセットの特徴（例：短期平均[STA]、長期平均[LTA]、フーリエ変換）が入力として使用される。稀なアプリケーションでは、単一トレースの小ウィンドウが入力として考慮され、出力ラベルには窓にファーストブレークが含まれている場合は1、そうでない場合は0が含まれる。
ほとんどのMLベースのファーストブレークアプリケーションは、CNNモデルのスキームで実装されている。CNNベースのファーストブレークピッキングモデルは、従来のSTA/LTA自動アルゴリズムと比較して優れた性能を示している。CNNは急な高度差が存在する場合でもファーストブレークピッキングに非常に効果的であるが、S/Nが低いデータの部分では挑戦的であることが示されている。他のアルゴリズム、例えばSVRやLSTM-RNNのファーストブレークピッキングへの適用は限られている。

VMB from groundroll

地表波、またはグラウンドロールは、陸上地震データで支配的であり、近表面についての貴重な情報を含んでいる。地表波の分散曲線は、f-v、f-k、τ-pなどのスペクトルドメインで手動でピックされ、これらの分散曲線は個別にまたは同時にさせ、近表面のS波速度モデルを取得し、稀なケースではP波速度モデルも取得する（Socco and Comina, 2017）。
しかし、大規模な現場データの場合、分散インバージョン曲線の手動ピッキングは非現実的になる可能性がある。さらに、分散曲線のインバージョンは強く非線形な問題であるため、インバージョンは事前の情報やハイパーパラメータの校正を必要とし、大局的最適解に収束する現実的なモデルを導くことが求められる。
ほとんどのMLベースの分散曲線ピッキングアルゴリズムは、DBSCAN、K-means、PCA、またはこれらのアルゴリズムの組み合わせなどの教師なしアルゴリズムを使用して自動的にピックされた分散曲線を微調整することに焦点を当てている（Masclet et al., 2019; Kaul et al., 2020; Rovetta et al., 2020; Yao et al., 2021）。
より洗練されたML実装では、データの周波数-波数表現が入力として使用され、分散曲線を表すマスクがCNNモデルの出力として考慮される（Kaul et al., 2021b; Ren et al., 2021）。稀だが革新的なアプローチでは、分散ピッキングステップを迂回し、周波数-波数ドメインの生の地表波データからS波速度モデルを推定することを目指している（Yablokov and Serdyukov, 2020; Aleardi and Stucchi, 2021）。

Passive seismic data

光ファイバー分散音響センシング（DAS）の成長に伴い、受動的モニタリングデータの取得が大幅に促進され、完全に自動化されたデータ駆動型の信号検出およびイベント位置検出アプローチの開発が必要とされている。現在のMLベースの受動地震データタスクに関する包括的な概観は、Anikiev et al. (2023)で見ることができる。
ほとんどのMLベースの受動信号検出方法では、CNNモデルが考慮される（Binder and Chakraborty, 2019; Stork et al., 2020; Rajeul, 2021）。これらのアプローチでは、通常、地震データのパッチが入力として作成され、バイナリーラベルの出力がマイクロ地震信号を含むかどうかを定義するために考慮される。
Binder and Chakraborty (2019)は、シミュレートされたDASデータと実際のDASデータのパッチの組み合わせを使用して信号の時間ウィンドウを検出するCNNモデルを訓練する。訓練されたモデルを実際のDASデータに適用した結果は、STA/LTAメソッドと比較して優れた結果を示した。
受動イベントの位置を特定することに焦点を当てた別のグループのMLベースのアプリケーションもある。マイクロ地震イベントの位置を特定するためのMLモデルのほとんどは、CNNモデルを考慮している（Rodriguez, 2021; Wang and Alkhalifah, 2021; Wang et al., 2021）。Wang and Alkhalifah (2021)は、イベントを検出するための1つのCNNモデルと、地震イベントの位置を特定するための別のCNNモデルを使用する。同様のモデルを使用して、Wang et al. (2021)は、訓練されたモデルを頁岩ガスプレイの水圧破砕プロセス中に記録されたデータに適用する。従来のリバースタイムイメージングとの結果の比較は、より速い予測と同様の精度を示した。Gu et al. (2019)は、ベイジアンCNNを考慮し、MLベースの地震位置推定の不確実性を定量化するために確率的正則化技術を実装する。

SEISMIC ATTRIBUTES IN ML-BASED INTERPRETATION APPLICATIONS

サイスミックアトリビュートは、地震データの数学的操作によって得られ、様々な物理的、岩石物理学的、地質学的特性を強調することを目的としている。各属性は通常、地震データの特定の特性を強調するために定義される。その結果、多くのサイスミックアトリビュートが年月を経て定義され、様々な解釈タスクの改善に役立っている（Chopra and Marfurt, 2007）。
多くのMLベースの方法、例えばエンコーダー・デコーダーアーキテクチャは、類似の戦略に従っている。これらの方法の訓練段階では、エンコーダーは入力データ（地震データ）を有用で情報に富み、コンパクトな中間特徴にエンコードするために訓練され、デコーダーはこれらの中間特徴を使用して結果（解釈タスク）を予測するために訓練される。
処理された地震データの代わりに適切なアトリビュートを入力データとして考慮すると、MLモデルの性能が大幅に向上し、訓練時間が短縮される可能性がある。適切なアトリビュートの使用を強調する理由は、(1) すべてのアトリビュートが目標解釈タスクに関する情報に富んでいるわけではない、(2) 相関的なアトリビュートの使用はMLモデルを大きくバイアスする可能性がある、(3) 地震データの代わりに複数のアトリビュートを入力として使用すると、メモリ要件が大幅に増加するためである。
アトリビュート選択アルゴリズムは、データ空間の次元を相関が低減された有用なアトリビュートに減少させる。したがって、アトリビュート選択のプロセスは、アトリビュートベースのMLベースの解釈アプリケーションにおいて重要な役割を果たす。
現在のアトリビュートベースのML地震解釈アプリケーションの半数以上が、アトリビュートを選択する基準の欠如に悩まされている（下図）。PCAは、アトリビュート空間の次元削減に最も一般的な方法である。ランダムフォレスト、確率的ニューラルネットワーク（PNN）、ガウス混合モデル（GMM）、最大係数混合などの他の方法も、有用な情報を無視することなくアトリビュート空間の次元削減に有望な結果を示している。Zhao et al. (2015a)は、アトリビュート選択のための様々な教師なしアルゴリズムの包括的なレビューと比較を提供している。

SEISMIC INTERPRETATION

文献によると、ML方法は地震解釈タスクに広く適用されている。これは、コンピュータビジョンのML方法が地震解釈タスクに適応可能であることと、これらのタスクの自動化の必要性があるためである。構造解釈、岩石学的解釈、および岩石/岩石物理特性の推定の3つの主要なカテゴリーの枠組み内で出版物を分析した。それぞれが多くのアプリケーションを含む（下図）。MLの実装は主に断層検出（23%）と岩石相同定（22%）に焦点を当てている。
CNNアルゴリズムは、地震処理および解釈タスクに一般的に使用される（図6および11）。それにもかかわらず、地震解釈タスクにはより多様なアルゴリズムが利用されている（図11）。この側面は主に、広範囲の教師ありおよび教師なしアルゴリズムが考慮されている岩石相分類アプリケーションで観察される。それにもかかわらず、CNNはまだほとんどのアプリケーションで最も一般的なモデルである。

Structural interpretations

構造解釈は、解釈者のドメイン知識と経験に大きく依存する、非常に主観的なタスクである。以下のセクションでは、断層検出、塩類および地質体の同定、地平線ピッキングの3つの主要な構造解釈アプリケーションに焦点を当てたMLの実装について検討されている。

Fault detection

ほとんどのMLベースの断層検出実装は教師あり方式であり、稀に半教師あり方式で行われる。教師ありCNNとMLPは、MLベースの断層検出における人気のある技術である。他の一般的な方法としてSVMがある。一般的でない他のアプリケーションでは、GANアルゴリズムが使用される。
不確実性の定量化は、断層検出などの解釈アプリケーションにおいて重要なタスクである。不確実性は、アレートリック不確実性とエピステミック不確実性に分けられる。ベイズCNNは、これらの不確実性を定量化するためにベイズ原理に基づいた確率論的MLモデルである。
断層検出は常に断層または非断層の二項問題として扱われる。地震データのパッチはさまざまな方法でMLモデルに導入される。一部のアプリケーションでは、地震属性をML実装のための入力として手動で選択する。属性は、それらの間の相関を排除し、データ空間と計算能力の要件を減少させる基準に従って選択される

Horizon picking

多くの従来のホライゾンピッキングアルゴリズムと同様に、MLベースの方法もホライゾンを追跡するためにシードポイントを考慮する（Peters et al., 2019; Shi et al., 2020; Ferdinand Fernandez et al., 2021）。これらのアプリケーションでは、ML実装の目標は、未知のデータに適用できるグローバルモデル（GM）を得ることではない。対照的に、信頼性のあるシードポイント（ラベル）が入力トレースに関連付けられ、訓練データとして使用される。残りのデータはその後、ホライゾンを予測するためにMLモデルに挿入される。
いくつかのアプリケーション（例：Wu and Zhang, 2019; Guillon et al., 2020）では、訓練データがセグメント化され、さまざまな地平線のためのシードポイントを得る。ほとんどのMLベースのホライゾンピッキングはCNNモデルを使用する。
予測に関連する地平線の確率を定量化するために、Siahkoohi et al. (2020)はベイジアンCNNを検討する。Shi et al. (2020)は、切り取られた短波形をエンコードされた潜在空間にエンコードするために、教師なしのオートエンコーダーモデルを検討する。その後、既知のシードポイントと比較して類似の特徴ベクトルを持つ波形パッチがホライゾンとして識別される。

Salt and geobody identification

MLアプリケーションでは、地質構造検出問題はホライゾンピッキング（Gramstad and Nickel, 2018; Kaul et al., 2021a）およびセグメンテーション問題（Waldeland and Solberg, 2017; Shi and Wu, 2019; Di and AlRegib, 2020）として扱われる。前者のアプリケーションでは、前セクションで説明された原則を使用して、ソルトの上部と下部の地平線をピックする。対照的に、セグメンテーションアプローチは、地震データおよび/または地震属性の各ピクセルをソルトまたはソルト以外のカテゴリに分類することを目指す。
地質体（ソルト）識別のためのほとんどのアプリケーションはCNNネットワークを考慮している（Gramstad and Nickel, 2018; Wang et al., 2018b）。Di and AlRegib (2020)は、ソルトの予測においてCNNモデルとMLPの効率を比較し、CNNモデルの方がはるかに効率的であり、サイスミックアトリビュートなしでも信頼性のある結果を提供できると結論付ける。
Waldeland and Solberg (2017)は、地震スタックデータの小さなキューブ（65 × 65 × 65）を入力として考慮する。彼らは3つの畳み込み層と平均プーリングを使用してキューブから40の特徴（属性）を抽出し、その後、分類のための一連の従来の全結合層に続く。一般的なニューラルネットワークアプリケーションが問題に非線形性を含めるためにReLUオペレータを考慮するのとは対照的に、彼らは学習段階を特定の条件下で加速できるELUオペレータを使用する。
この調査では、ノルウェー大陸棚データセットの単一セクション上でデータをトレーニングし、残りのデータにラベルを付けるためにそれを使用する。図bと下図ｃは、それぞれ訓練セクションとテストセットからのソルトの例を示している。エピステミックおよびアレートリック不確実性に対処するために、Mukhopadhyay and Mallick (2019)およびZhao and Chen (2020)は塩類を識別するためにベイジアンCNNアルゴリズムを考慮する。

Lithologic interpretations

Lithofacies classification

岩石ファシスの手動解釈者は通常、専門家であり、他の人が識別できない有用な特徴を検出する。これらの専門家は、地震断面図と様々なアトリビュートを利用して岩石ファシスを識別する。しかし、大規模なデータセットが考慮される場合、手動アプローチは非常に費用がかかり、時間がかかる可能性がある。
代わりに、多くの教師なし、教師あり、半教師ありのMLベースのアルゴリズムがファシス分類のために導入されている。MLベースのファシス分類においてアトリビュートを使用することは非常に一般的である。約66%が、地震振幅の有無にかかわらず地震アトリビュートを入力として考慮している。
アトリビュートベースのアプリケーションの38%が、既に利用可能なアトリビュートを考慮するか、ファシス分類のために適切な属性を手動で選択する。残りのアプリケーションは、PCA、ラッパー分析、PNN、遺伝的アルゴリズム、最大情報係数、段階的回帰法、GMMなどの基準を考慮して、最も適切なアトリビュートを選択する。
地震相分類のためのMLベースのモデルは通常、データセットの岩石学が大きく異なる可能性があるため、単一のデータセットに特化して訓練される。CNNアルゴリズムはファシス分類のための最も一般的な教師あり方法である。Zhang et al. (2021)は、従来のCNNとU-Net、DeepLabv3+エンコーダーデコーダーアーキテクチャを比較し、エンコーダーデコーダーアーキテクチャがより一貫した結果を提供し、その中でもDeepLabv3+がより正確であることを示している。
U-Netのエンコーダーデコーダーアーキテクチャに似て、Alaudah et al. (2019)は、地震スタックデータのパッチを入力とし、岩石ファシスを出力として提供する（入力と同じサイズ）オープンソースモデルを開発した。Salvaris et al. (2020)は、複数のアーキテクチャ（U-Net、SEResnet、HRNet）に基づくMLベースの地震分類アルゴリズム（DeepSeismicと呼ばれる）を開発し、オンラインで利用可能である。
他の教師ありファシス分類アプリケーションでは、SVM、MLP、RNN、PNN、ランダムフォレストが考慮される。Zhao et al. (2015a)は、SVMと人工ニューラルネットワーク（ANN）の適用を比較し、SVMによるファシスの分類がより正確であるが、はるかに高い計算コストがかかることを示唆している。
他の地震アプリケーションとは異なり、MLベースのファシス分類は一般的に教師なし方式（33%）で実装される。その中で、自己組織化マップ（SOM）、K-means、生成的トポグラフィックマップ（GTM）が一般的に使用される。SOMは、高次元データ空間を削減し、データ内の類似パターンを分類するデータ可視化技術である。
教師なしのアプローチとして、Qian et al. (2018)はオートエンコーダーの教師なしニューラルネットワークを使用してデータの潜在空間の特徴を抽出し、オートエンコーダーからの特徴をクラスタリングするためにK-meansの教師なしアルゴリズムを使用する。Zhao et al. (2015a)は、教師なしアルゴリズム（PCA、K-means、SOM、GTM）と教師ありアルゴリズム（ANN、SVM）の4つのパフォーマンスを比較し、K-meansが最も単純で適用しやすいMLベースのアルゴリズムであることを結論付ける。
半教師ありファシス分類スキームは稀に実装され、ほとんどがGANに基づいている。Singh et al. (2021)によるGANとCNNのパフォーマンスの比較は、ラベル付きデータが豊富な場合、CNNモデルがより正確な結果を提供するが、限定されたラベル付きデータが利用可能な場合、GANが好ましく、より正確であることを示唆している。

Stratigraphic sequence identification

MLベースの岩石相分類と同様に、MLベースの層序列識別は通常、単一のデータセット上で実装され、同じデータの一部を使用してモデルを訓練する。ほとんどのMLベースの層序列推定はCNNモデルを使用する（Huot et al., 2019; Li et al., 2019; Di et al., 2020）。
Di et al. (2020)は、教師なしオートエンコーダーと教師ありCNNネットワークから成るMLネットワークを検討する。オートエンコーダーは、教師ありCNNモデルへの入力となるデータから多くの特徴を抽出する。彼らは出力ラベルを作成するために3つのシナリオを考慮する：(1) 1D層序プロファイル、(2) 入力と同じサイズの層序の2Dパッチ、(3) 目標地震シーケンスを強調するペイントブラシラベル。ペイントブラッシュアプローチは、解釈者が地震データセット内の任意の関心領域に注釈を付ける柔軟性を与える。
他の教師あり実装では、Li et al. (2018b)とKuroda et al. (2016)がそれぞれRNNとMLP アルゴリズムを検討する。教師なしアルゴリズムの中では、DBSCAN（Corlay et al., 2020）とSOM（Laudon et al., 2019）も層序列識別に使用される。Bugge et al. (2019)は、地震データの小さなキューブごとに属性ベクトルを計算し、DBSCANアルゴリズムを使用してそれらを層序列にクラスタリングする。

Petrophysics, rock physics, and inversion

MLアルゴリズムは、様々な岩石物理および岩石特性の推定に使用される。MLは主に、孔隙率、密度、脆性、VP/VS、Vshale/Vclayの推定に焦点を当てている。多くの実装では、同じMLアーキテクチャが様々な岩石物理および岩石特性の予測に別々に訓練される。
MLでは、通常、処理された地震データまたは対応するアトリビュートが入力として考慮され、ウェルログデータが望ましいターゲットとして使用される。岩石相識別と同様に、ほとんどのアプリケーションは手動または実験的に選択されたサイスミックアトリビュートを利用する。
一部の出版物では、遺伝的アルゴリズム、多重線形回帰、勾配ブースティング、PCAなどの様々な方法を使用してアトリビュート空間からアトリビュートを選択する。ほとんどのアプリケーションは、CNNモデルを特性の推定に使用する。
教師あり方式で実装される他のCNNアプリケーションとは異なり、Feng et al. (2020)は、モデルが低周波の事前孔隙率に追加される高解像度の孔隙率を推定することを目的とした教師なしCNNスキームを開発する。Choi et al. (2020)とMosser et al. (2020)は、それぞれ密度とVP/VSの推定のための不確実性を定量化することを可能にするベイジアンCNNを検討する。
SVR、MLP、PNNを使用した岩石物理および岩石特性推定のいくつかの例が存在する。Zhao et al. (2015b)は、接近支持ベクター回帰の枠組みで脆性指数を推定するために手動で選択された5つのアトリビュートを考慮する。別の実験では、Ore and Gao (2021)は、脆性を推定するためにMLP、SVR、勾配ブースティングの性能を比較し、勾配ブースティングが他の2つと比較して優れた結果を提供した。

Impedance and elastic parameters

MLベースのアプリケーションは、弾性インピーダンスの推定よりも音響インピーダンスの推定（71%）に焦点を当てている。一部のMLは、弾性特性に焦点を当て、Connolly (1999)によって定義された弾性インピーダンスの取得を目指しているが、残りはS波速度、P波速度、密度などの弾性パラメータの推定を目指している。
ほとんどのMLベースのインピーダンス推定方法は、アトリビュートではなく、プリスタックまたはポストスタックの地震データを入力として考慮する。MLベースのインピーダンス推定は通常、岩石物理および岩石特性の推定と結びつけられ、単一のMLネットワークまたは別々のネットワークで実装される。
インピーダンスインバージョンは通常、CNNアルゴリズムの枠組みで実装される。Das and Mukerji (2020)は、ベイジアンフレームワークで2つのCNNネットワークを持つカスケードCNNを検討する。最初のネットワークは地震データを入力とし、音響インピーダンスとVP/VSを提供する。第一のネットワークの出力は、孔隙率とシェール体積を推定する第二のCNNモデルへの入力として使用される。
従来のCNNと物理ガイド付きCNNの性能を弾性パラメータの推定において比較する。物理ガイド付きフレームワークは教師なし方式で実装され、モデルの出力は自動的に合成された地震データの生成に使用され、入力データと比較される。
他のCNNベースの作業では、Das et al. (2019)とChoi et al. (2020)がそれぞれ音響インピーダンスと弾性特性の推定の不確実性を定量化するためにベイジアンCNNを使用する。cGANモデルは音響インピーダンス推定に非常に効果的であることが示されている。Cai et al. (2020)の合成テストは、従来のcGANと比較して、Wasserstein損失関数と勾配ペナルティ損失を持つcGANの方が性能が優れていることを示唆している。

4D data

4Dデータ処理のためのMLの一部は、圧力、水、およびガス含有量の変化を同じMLアーキテクチャ内で推定することを目指している（Dramsch et al., 2019; Côrte et al., 2020; Alali et al., 2022）。他のアプリケーション、例えばXue et al. (2019)では、水分含有量の変化のマッピングのみに焦点を当てる。
Kaur et al. (2020)は、貯留層における炭素貯蔵の枠組みで4DデータからのCO2飽和度をモニタリングするためにGANモデルを使用する。ほとんどのMLベースの4Dデータ処理は、ディープニューラルネットワーク（Côrte et al., 2020）およびCNN（Weinzierl and Wiese, 2020）を考慮している。
Xue et al. (2018)は、水分含有量の変化を予測するために、4D属性、孔隙率、ネット・トゥ・グロス、および水分含有量のベースラインを入力として考慮する。MLPとランダムフォレスト、決定木、SVRなどの他の多くのMLアルゴリズムの性能を比較し、MLPとランダムフォレストが最高の精度を提供することを示唆している。
タイムラプスデータの従来のFWIでは、逆問題に井戸データを組み込むことが重要である。Li et al. (2021c)は、FWIの解像度を向上させ、精度を高めるためのMLP支援正則化技術を開発する。Babalola (2019)は、水分含有量と圧力の変化を推定するために混合密度ニューラルネットワークを考慮する。

Disucussion

各地震タスクに対する現在のML実装の効率、適用性、および有効性を評価するために、出版物から収集した統計データから抽出できるパラメータに基づいて特定の指標を定義する。データ準備の簡便さ（DPS）と計算能力要件をMLの効率の指標として考慮する。また、実データテストの割合（RDT）と未確認データに対するGM（グローバルモデル）推定の割合を適用性の指標として考慮する。最後に、効果の指標として多様性指数（DI）を考慮する。以下で、これらの指標について詳細に説明する。指標を定義するために、出版物で利用可能な情報のみを使用した。これにより分析に大きな制約が生じた。なぜなら、効率、適用性、および有効性の理想的な指標となり得たいくつかのパラメータは、情報の欠如のために無視せざるを得なかったからである。例えば、提案されたML実装の適用性を評価するために重要な指標は精度である。それにもかかわらず、多くの出版物は精度の定性分析のみを含み、定量分析を実施したものは特定の指標を使用していたため、統計情報を引き出すことが不可能であった。
一般的に、アプリケーションに応じて、生データ、プレスタック/ポストスタックマイグレーションデータ、およびサイスミックアトリビュートが入力として使用される。マイグレーションデータは1D畳み込みモデルを使用してシミュレートできる。結果として、我々はDPS指標に合成マイグレーションデータに対して3（最も簡単）の値を割り当てた。生データは通常豊富に利用可能であるが、生データの合成シミュレーション（有限差分および有限要素）にはかなりの計算能力が必要である。その結果、生（プリスタック）データを要求するアプリケーションにDPS指標の値を2（中程度）として割り当てた。アトリビュートは、合成スタックセクション/キューブから計算できる。それにもかかわらず、多くのアトリビュートが定義されており、アトリビュート空間を減少させるための基準が考慮されるべきである。そのため、適切なアトリビュートを選択するための追加のステップを必要とするアプリケーションにデータ準備指標の値を1（最も困難）として割り当てた。MLの処理および解釈タスクごとにnの出版物がある場合、平均DPS指標を次のように計算する：

計算能力要件の近似は非常に困難である。なぜなら、出版物で公開される情報が非常に限られているためである。MLモデルの計算能力要件の重要な指標は、訓練可能なパラメータの数である。それにもかかわらず、モデルのアーキテクチャについては出版物から多くの情報が得られず、結果として多くの出版物で訓練可能なパラメータの数に関する情報が欠如していた。
代わりに、訓練サンプルの数に関する統計データや入力と出力データの次元に関する情報が利用可能であった。一般に、これらのパラメータは訓練可能なパラメータの数と計算要件とよく相関する。これらのパラメータを使用して計算能力効率（CPE）を定義する：

ここで、はそれぞれMLモデルで使用されるピクセルの数としての入力および出力データの次元であり、Ni
$�_{�}$ はアプリケーションで考慮される訓練サンプルの数である。もちろん、出版物から抽出可能なメタデータに基づいて定義されたCPEは、アプリケーションの計算要件を完全に反映しているわけではないが、それの適切な代理である。
MLベースのアプリケーションの適用性を測定するために2つの指標を考慮する。最初の指標では、MLモデルを評価するためにRDTを考慮した出版物の割合を計算する。2番目の指標では、未確認のデータセットを処理するためのGMを提供することを目的とする出版物の割合としてGM比率を考慮する。これらのモデルは、実データの一部を訓練データとして使用して、各実データに対して別々に訓練されるものとは対照的である：
単一の地震アプリケーションに対して実装されたMLアルゴリズムのDIを、その効果の指標として考慮する。Simpson DI（Simpson, 1949）を次のように与える：

ここで、 $�$ はアプリケーションに使用された各アルゴリズムの指数（例：CNNおよびGAN）、 $�_{�}$ はこのアルゴリズムが使用された回数（出版物）、 $�$ は地震タスクに対して考慮された出版物の総数である。DIは一般に、効率の完全なビューを提供するために精度の測定値とともに分析されなければならないことを強調したい。それにもかかわらず、出版物からの統計データはこの分析で現実的に使用されるには不十分であった。
処理および解釈タスクの間で区別しながら、すべての指標をゼロから一の範囲で正規化する。例えば、処理タスクのDI（ $� �_{�}$ ）を次のように正規化する：
表1および表2では、それぞれ処理および解釈アプリケーションの計算された指標の結果を報告する。アトリビュートまたは特徴は、地震処理アプリケーションにはほとんど使用されない。トレース補間、周波数外挿、ローデータからのVMB、およびファーストブレークピッキングには、ローデータのみが考慮される。その結果、これらのアプリケーションは最低のDPS指標を持つ。
対照的に、デノイジングMLベースのアプリケーションは定期的にローデータおよびマイグレーションされた地震データに適用され、処理アプリケーションの中で最高のDPSをもたらす。それにもかかわらず、デノイジングには高い計算能力（低いCPE指標）が必要である。ローデータからのVMBは、ローデータから直接弾性特性を提供するために多くの伝統的な地震アプリケーションステップを迂回する非常に興味深いアプリケーションである。それにもかかわらず、ほとんどのアプリケーションが合成テストのみを考慮しているため、まだ理論的な段階にある（低RDT）。QCは、高いRDT、GM、およびDI指標を持つが、訓練段階で高い計算能力を要求する最も有望なアプリケーションの1つである。
解釈アプリケーションの中で、MLベースのホライゾンピッキング、インピーダンスインバージョン、および断層検出は主に地震スタックセクション/キューブを考慮し、岩石相分類や岩石物理および岩石特性の推定などの他のMLベースの解釈アプリケーションと比較して高いDPSをもたらした。これらは地震アトリビュートに依存している。
それにもかかわらず、ホライゾンピッキングと断層検出は、計算要求が高い解釈MLベースのタスクであり、低いCPEを持っている。対照的に、MLベースの岩石物理および岩石特性は、低いDPSにもかかわらず、他の指標で非常に高いランクを占め、最も有望なMLベースの解釈アプリケーションの一つである。
ただし、これらのアプリケーションの低いCPEは、岩石物理および岩石特性に対する利用可能なログデータ（ラベル付きデータ）の限られた量にも原因があることに注意すべきであり、より包括的な分析のためには精度のさらなる評価が必要である。一方、断層検出の低いDIは、数多くの定量的および定性的な測定によって評価された断層検出のためのCNNモデルの集約に主に起因している。さらに、多くの断層検出CNNベースのオープンソースモデルが利用可能であり、未確認のデータによってテストすることができる。

Conclusion

MLアルゴリズムは、地震処理および解釈のほぼ全段階に積極的に適用されている。現在のML実装の状態は、個々の処理および解釈タスクの自動化において顕著な成果を示しており、時には従来の方法と比較してさらに良い結果をもたらすことがある。
従来の地震探査ワークフローの中間プロセスを迂回することを目指す数少ない試みを除き、ほとんどのMLベースのアプリケーションは、従来の探査ワークフローに沿った個々の処理および解釈タスクの効率と効果を向上させることに焦点を当てている。
この段階では、MLベースの地震探査はまだ究極の目標であるローデータをアルゴリズムに提供し、地下モデルおよび岩石/岩石物理特性を得るという聖杯には到達していない。それにもかかわらず、自動運転や自然言語処理など他のセクターにおけるML実装の進化は、エンドツーエンドの包括的なMLモデルに到達するためには、個々のMLベースのタスクの開発が不可欠であることを示している。
MLベースの地震探査に関する研究は、その開発の初期段階にあると信じられている。聖杯に到達するにはさらなる研究が必要であり、オープンアクセスの豊富なラベル付きデータが必要である。過去数十年でMLベースの地震探査に関する研究は指数関数的に増加しており、包括的なモデルの開発により焦点を当て、聖杯に近づくことが今後数年でさらに拡大すると期待されている。

Machine learning for seismic exploration: Where are we and how far are we from the holy grail?

Abstract

Introduction

SYNTHETIC DATA SETS FOR SEISMIC APPLICATIONS

SEISMIC PROCESSING

Preprocessing

Quality control

Denoising

Trace interpolation

Event separation

Processing

Velocity model buildingFrequency extrapolation

VMB from raw data

First-break picking

VMB from groundroll

Passive seismic data

SEISMIC ATTRIBUTES IN ML-BASED INTERPRETATION APPLICATIONS

SEISMIC INTERPRETATION

Structural interpretations

Fault detection

Horizon picking

Salt and geobody identification

Lithologic interpretations

Lithofacies classification

Stratigraphic sequence identification

Petrophysics, rock physics, and inversion

Impedance and elastic parameters

4D data

Disucussion

Conclusion

Velocity model building
Frequency extrapolation