論文要約:Masked Autoencoders Are Scalable Vision Learners

Masked Autoencoders Are Scalable Vision Learners

arxiv.org

Kaiming HeXinlei ChenSaining XieYanghao LiPiotr DollárRoss Girshick

ライセンス:

CC BY 4.0 Deed | Attribution 4.0 International | Creative Commons

Abstract

目的:マスク付きオートエンコーダ(MAE)が、コンピュータビジョンにおけるスケーラブルな自己教師あり学習者であることを示すこと。

手法:入力画像からランダムにパッチをマスキングし、欠けているピクセルを再構成するシンプルなアプローチを採用。非対称のエンコーダ・デコーダアーキテクチャを開発し、エンコーダは見えるパッチのサブセットのみを処理し、軽量なデコーダは潜在表現とマスクトークンから元の画像を再構成する。入力画像の高い割合(例えば75%)をマスキングすることで、非自明かつ意味のある自己教師ありタスクを実現する。

結果:この2つの設計を組み合わせることで、大規模なモデルを効率的かつ効果的に訓練することができ、訓練を3倍以上加速し、精度を向上させる。スケーラブルなアプローチにより、高い容量のモデルを学習し、一般化能力が高いことを実証。例えば、バニラViT-Hugeモデルは、ImageNet-1Kデータのみを使用する方法の中で最高の精度(87.8%)を達成する。

結論:本研究により開発されたMAEアプローチは、大規模モデルの効率的かつ効果的な訓練を可能にし、ダウンストリームタスクでの転移性能が、教師あり事前訓練を上回り、有望なスケーリング挙動を示す。

Introduction

深層学習では、能力と容量が絶えず成長するアーキテクチャの爆発的な増加が目撃されている。ハードウェアの急速な向上に支えられ、現代のモデルは簡単に100万枚の画像をオーバーフィットすることができ、多くの場合公開されていない数億枚のラベル付き画像を要求し始めている。

自然言語処理NLP)では、このデータへの食欲は自己教師ありの事前学習によって成功裏に対処されている。GPTの自己回帰言語モデリングやBERTのマスク付きオートエンコーディングに基づく解決策は、データの一部を取り除き、取り除かれた内容を予測するという、概念的にシンプルである。これらの方法は現在、1000億以上のパラメータを含む一般化可能なNLPモデルの訓練を可能にしている。

マスク付きオートエンコーダ、より一般的なデノイジングオートエンコーダの形態は、コンピュータビジョンにも自然かつ適用可能である。実際、ビジョンにおける密接に関連する研究はBERTに先行している。しかし、BERTの成功に続くこのアイデアへの顕著な関心にもかかわらず、ビジョンにおけるオートエンコーディング方法の進歩はNLPに後れを取っている。

アーキテクチャの違い:これまでビジョンでは、過去10年間、畳み込みネットワークが支配的であった。畳み込みは通常、規則的なグリッド上で操作を行い、マスクトークンや位置埋め込みなどの「指標」を畳み込みネットワークに統合することは直接的ではない。しかし、このアーキテクチャのギャップは、Vision Transformers (ViT)の導入により対処され、もはや障害とはならない。

情報密度の違い:言語とビジョンでは情報密度が異なる。言語は高度に意味的で情報密度が高い人間が生成するシグナルである。一方、画像は空間的な冗長性が高い自然なシグナルであり、例えば、欠けているパッチは隣接するパッチから高レベルの理解がほとんどなくても回復できる。この違いを克服し、有用な特徴の学習を促進するために、コンピュータビジョンでは非常に高い割合のランダムなパッチをマスキングするというシンプルな戦略がうまく機能することを示す。この戦略は冗長性を大幅に削減し、低レベルの画像統計を超えた包括的な理解を要求する難しい自己教師ありタスクを作り出す。

オートエンコーダのデコーダの役割の違い:テキストと画像を再構築する際に、オートエンコーダのデコーダが果たす役割は異なる。ビジョンでは、デコーダピクセルを再構築し、その出力は一般的な認識タスクよりも低い意味レベルである。これは、豊富な意味情報を含む欠けている単語を予測する言語とは対照的である。BERTではデコーダが単純(MLP)であるが、画像に関しては、デコーダの設計が学習された潜在表現の意味レベルを決定する上で重要な役割を果たすことが分かった。

本分析に基づき、視覚表現学習のためのシンプルで効果的かつスケーラブルなマスク付きオートエンコーダ(MAE)を提案する。我々のMAEは、入力画像からランダムなパッチをマスクし、ピクセル空間で欠けているパッチを再構成する。

非対称のエンコーダ・デコーダ設計を有している。エンコーダは見えるパッチのサブセットのみを処理し、デコーダは軽量であり、潜在表現とマスクトークンを使って入力を再構成する。この非対称エンコーダ・デコーダにおいてマスクトークンを小さなデコーダに移すことで、計算量を大幅に削減する。

高いマスキング比率(例えば75%)を使用することで、精度を最適化しつつ、エンコーダがパッチの小さな部分(例えば25%)のみを処理するというwin-winのシナリオを実現できる。これにより、全体の事前学習時間を3倍以上短縮し、同様にメモリ消費を減らし、大規模モデルへのMAEの容易なスケーリングを可能にする。

MAEは、一般化性能が高い非常に高容量のモデルを学習する。MAEの事前学習を用いることで、ViT-Large/-HugeのようなデータハングリーなモデルをImageNet-1Kで改善された一般化性能で訓練できる。バニラViT-Hugeモデルでは、ImageNet-1Kでファインチューニングした際に87.8%の精度を達成し、ImageNet-1Kデータのみを使用する以前の結果をすべて上回る。また、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションでの転移学習を評価する。これらのタスクで、我々の事前学習は教師あり事前学習と比較してより良い結果を達成し、より重要なことに、モデルをスケールアップすることで顕著な利得を観察する。これらの観測結果は、自己教師あり事前学習で目撃されたものと一致し、我々の分野が類似の軌道を探求することを可能にすることを期待している。

マスク言語モデリングとその自己回帰的な対応物(例えば、BERTやGPT)は、NLPの事前学習において非常に成功した方法である。これらの方法は、入力シーケンスの一部を保持し、モデルが欠けている内容を予測するように訓練する。

自動エンコーディングは、表現を学習するための古典的な方法であり、入力を潜在表現にマッピングするエンコーダと、入力を再構成するデコーダを持つ。例えば、PCAやk-meansは自動エンコーダである。デノイジングオートエンコーダ(DAE)は、入力信号を破損させ、元の未破損信号を再構築することを学ぶ自動エンコーダのクラスである。

我々のMAEはデノイジングオートエンコーディングの形式であるが、古典的なDAEとは多くの点で異なる。

マスク画像エンコーディング手法は、マスキングによって破損した画像から表現を学習する。DAEのノイズタイプとしてマスキングを提示する先駆的な研究や、大きな欠損領域を畳み込みネットワークを使用してインペインティングするContext Encoderなどがある。NLPでの成功に動機づけられ、関連する最近の方法はTransformersに基づいている。

自己教師あり学習アプローチはコンピュータビジョンにおいて顕著な関心を集めており、しばしば事前学習のための異なる前提タスクに焦点を当てている。最近では、画像の類似性と非類似性をモデル化するコントラスティブ学習が人気であり、データ拡張に強く依存している。オートエンコーディングは概念的に異なる方向性を追求し、我々が提示するように異なる振る舞いを示す。

Approach

著者らのマスク付きオートエンコーダ(MAE)は、部分的に観測された信号から元の信号を再構成するシンプルなオートエンコーディングアプローチである。すべてのオートエンコーダと同様に、観測された信号を潜在表現にマッピングするエンコーダと、潜在表現から元の信号を再構成するデコーダがある。しかし、古典的なオートエンコーダとは異なり、部分的に観測された信号のみを処理するエンコーダと、潜在表現とマスクトークンから完全な信号を再構成する軽量デコーダを採用する非対称設計を採用している。

マスキングでは、ViTに従って、画像を規則的な重複のないパッチに分割し、そのサブセットをサンプリングして残りのパッチをマスク(すなわち除去)する。サンプリング戦略は直接的で、置換なしでランダムなパッチを一様分布に従ってサンプリングする(ランダムサンプリング)

高いマスキング比率を持つランダムサンプリングは、冗長性を大幅に排除し、可視の隣接パッチからの外挿によって容易に解決できないタスクを作り出す。一様分布は、画像中心近くにマスクされたパッチが多くなる可能性のある中心バイアスを防ぐ。

MAEエンコーダは、ViTを可視のマスクされていないパッチにのみ適用されるが、標準のViTと同様に、エンコーダはパッチを線形射影によって埋め込み、位置埋め込みを加えてから、一連のトランスフォーマーブロックを介して結果のセットを処理する。しかし、エンコーダは完全なセットの小さなサブセット(例えば25%)のみを処理する。マスクされたパッチは除去され、マスクトークンは使用されない。これにより、計算とメモリの一部分のみを使用して非常に大きなエンコーダを訓練することができる。完全なセットは、次に説明される軽量デコーダによって処理される。

再構築対象:MAEは、マスクされた各パッチのピクセル値を予測することにより入力を再構築する。デコーダの出力の各要素は、パッチを表すピクセル値のベクトルである。デコーダの最後の層は、出力チャンネルの数がパッチ内のピクセル値の数に等しい線形射影である。デコーダの出力は、再構築された画像を形成するために再形成される。損失関数は、ピクセル空間での再構築された画像と元の画像との間の平均二乗誤差(MSE)を計算する。損失は、BERTと同様に、マスクされたパッチのみに対して計算される。

著者らはまた、再構築対象が各マスクされたパッチの正規化されたピクセル値である場合も研究している。具体的には、パッチ内のすべてのピクセルの平均と標準偏差を計算し、このパッチを正規化するためにそれらを使用する。正規化されたピクセルを再構築対象として使用することは、表現の品質を向上させる。

シンプルな実装:MAEの事前学習は効率的に実装でき、重要なことに、特別なスパース操作を必要としない。まず、すべての入力パッチに対してトークンを生成する(位置埋め込みが追加された線形射影によって)。次に、トークンのリストをランダムにシャッフルし、マスキング比率に基づいてリストの最後の部分を削除する。このプロセスは、エンコーダのためのトークンの小さなサブセットを生成し、置換なしでパッチをサンプリングすることと同等である。エンコード後、マスクトークンのリストをエンコードされたパッチのリストに追加し、この完全なリストをアンシャッフルする(ランダムシャッフル操作を反転させる)ことで、すべてのトークンをそれらのターゲットと整列させる。デコーダは、この完全なリスト(位置埋め込みが追加されている)に適用される。指摘されているように、スパース操作は必要ない。このシンプルな実装は、シャッフルとアンシャッフル操作が速いため、無視できるオーバーヘッドを導入する。

ImageNet Experiments

自己教師あり事前学習をImageNet-1K(IN1K)の訓練セットで行い、エンドツーエンドのファインチューニングまたは線形プロービングで表現を評価する。単一の224×224クロップのトップ1バリデーション精度が報告される。

ベースラインとしてViT-Large(ViT-L/16)を使用し、ViT-Lは非常に大きく(ResNet-50よりも一桁大きい)オーバーフィットしやすい。ViT-Lをゼロから訓練したものと、著者らのベースラインMAEからファインチューニングしたものとの比較を行う。

Masking ratio. マスキング比率に関する研究では、最適な比率が驚くほど高いことが示されている。75%の比率が線形プロービングとファインチューニングの両方に適している。この挙動は、BERTの典型的なマスキング比率15%とは対照的であり、コンピュータビジョンにおける関連研究(20%から50%)よりもはるかに高い。

モデルは欠けているパッチを推測して異なるが妥当な出力を生成し、オブジェクトやシーンの全体像を理解する。この推論のような振る舞いは、有用な表現の学習に関連していると仮定する。

Main Properties

著者らはいくつかのモデル特性について、アブレーションスタディを行った。

Decoder design

  • デコーダの設計は柔軟に行うことができ、デコーダの深さ(トランスフォーマーブロックの数)を変えることによって、線形プロービングでは十分に深いデコーダが重要であり、再構築の専門化を考慮して潜在表現をより抽象的なレベルで残すことができる。この設計は線形プロービングで最大8%の改善をもたらすが、ファインチューニングを使用する場合、エンコーダの最後の層は認識タスクに適応するために調整されるため、デコーダの深さはファインチューニングの改善にはあまり影響しない。
  • 単一ブロックのデコーダを持つ我々のMAEは、ファインチューニングで強力なパフォーマンスを発揮する(84.8%)。単一のトランスフォーマーブロックは、可視トークンからマスクトークンへ情報を伝達するための最小要件である。このような小さなデコーダは、訓練をさらに加速することができる。
  • デコーダの幅(チャンネル数)に関する研究では、デフォルトでは512-dを使用し、ファインチューニングと線形プロービングの両方で良好な性能を発揮する。狭いデコーダもファインチューニングでうまく機能する。
  • 我々のデフォルトのMAEデコーダは軽量であり、8ブロックと512-dの幅を持ち、ViT-L(24ブロック、1024-d)と比較してトークンごとのFLOPsが9%しかない。このため、デコーダがすべてのトークンを処理しても、全体の計算のごく一部である。

Mask token

  • MAEの重要な設計は、エンコーダでマスクトークン[M]をスキップし、それを後で軽量デコーダに適用することである。この設計を研究した結果、エンコーダがマスクトークンを使用する場合、パフォーマンスが低下し、線形プロービングでの精度が14%低下する。エンコーダからマスクトークンを取り除くことで、エンコーダが常に実際のパッチを見るように制約し、精度を向上させる。
  • エンコーダでマスクトークンをスキップすることにより、訓練計算を大幅に削減する。全体の訓練FLOPsを3.3倍削減し、実装では速度を2.8倍向上させる。より小さなデコーダ(1ブロック)、より大きなエンコーダ(ViT-H)を使用する場合、またはその両方を使用する場合、壁時計速度の向上はさらに大きくなる(3.5~4.1倍)。マスキング比率が75%の場合、速度向上は4倍以上になることがある。これは、自己注意の複雑さが二次的であるため部分的にである。さらに、メモリ使用量が大幅に削減され、より大きなモデルの訓練を可能にするか、大規模バッチ訓練によりさらに速度を上げることができる。時間とメモリの効率性は、非常に大きなモデルの訓練に著者らのMAEを有利にする。

Reconstruction target

  • 再構築対象の比較:これまでの結果は正規化されていないピクセルに基づいていたが、正規化を用いたピクセルを使用することで精度が向上する。パッチごとの正規化は局所的にコントラストを高める。また、パッチ空間でPCAを実行し、最大のPCA係数(ここでは96)を目標とする別のバリアントを試みたが、これは精度を低下させた。これらの実験は、我々の方法で高周波成分が有用であることを示唆している。
  • トークンを予測するMAEバリアントの比較:BEiTで使用されるターゲットであるトークンを予測するバリアントも比較した。このバリアントでは、DALLE事前学習済みのdVAEをトークナイザーとして使用し、MAEデコーダはクロスエントロピー損失を使用してトークンインデックスを予測する。このトークン化は、正規化されていないピクセルに比べてファインチューニング精度を0.4%向上させるが、正規化されたピクセルに対しては利点がなく、線形プロービング精度を低下させる。転移学習ではトークン化が必要ではないことをさらに示す。
  • ピクセルベースのMAEは、トークン化よりもはるかにシンプルである。dVAEトークナイザーは、追加のデータ(2億5000万画像)に依存する可能性のある、もう一つの事前学習ステージを必要とする。dVAEエンコーダーは大きな畳み込みネットワークであり、ViT-Lの40%のFLOPsを占め、無視できないオーバーヘッドを追加する。ピクセルを使用することで、これらの問題が生じない。

Data augmentation

  • データ拡張の影響:著者らはMAE事前学習におけるデータ拡張の影響を調査している。MAEは、固定サイズまたはランダムサイズのクロッピングのみを使用したデータ拡張でもうまく機能する(どちらもランダムな水平反転を含む)。カラージッタリングの追加は結果を低下させるため、他の実験では使用しない。
  • データ拡張を使用しない場合(センタークロップのみ、反転なし)でも、MAEは適切に振る舞うことが驚きである。この特性は、データ拡張に大きく依存するコントラスティブ学習や関連する方法とは大きく異なる。BYOLやSimCLRの場合、クロッピングのみの拡張を使用すると精度がそれぞれ13%と28%低下することが観察されている。また、コントラスティブ学習が拡張なしで機能する証拠はない:画像の2つのビューが同じであり、容易に自明な解を満たすことができる。
  • MAEでは、データ拡張の役割は主にランダムマスキングによって行われる。マスクは各イテレーションで異なるため、データ拡張に関係なく新しいトレーニングサンプルを生成する。前提タスクはマスキングによって難しくされ、訓練を規則化するために少ない拡張を必要とする。

Mask sampling strategy

  • マスクサンプリング戦略の比較:異なるマスクサンプリング戦略を比較する。ブロック単位のマスキング戦略は大きなブロックを除去する傾向があり、MAEでは50%の比率でまずまずの結果を得るが、75%の比率では性能が低下する。このタスクはランダムサンプリングよりも難しく、訓練損失が高くなり、再構築もぼやける。
  • グリッド単位のサンプリングは、4つのパッチごとに1つを定期的に保持する。これはより簡単なタスクであり、訓練損失が低い。再構築はより鮮明であるが、表現品質は低い。
  • シンプルなランダムサンプリングが我々のMAEにとって最も効果的である。これにより、より高いマスキング比率が可能となり、大きな速度向上の利点を享受しつつ、良好な精度を維持する。

Training schedule

  • 訓練スケジュール:これまでのアブレーションは800エポックの事前学習に基づいている。訓練スケジュールの長さの影響を示す。訓練が長くなると精度が着実に向上する。実際、1600エポックでも線形プロービングの精度の飽和が観察されていない。
  • この振る舞いは、例えばMoCo v3などのコントラスティブ学習方法とは異なり、ViT-Lでは300エポックで飽和する。MAEエンコーダーはエポックごとにパッチの25%のみを見るが、コントラスティブ学習ではエンコーダーがエポックごとに200%(2クロップ)あるいはそれ以上(マルチクロップ)のパッチを見る。

Comparisons with Previous Results

Comparisons with self-supervised methods.

  • 自己教師ありメソッドとの比較:ViTモデルのファインチューニング結果を比較する。ViT-Bでは、すべての方法が密接に機能する。ViT-Lでは、メソッド間のギャップが大きく、より大きなモデルの課題は過学習を減らすことであることを示唆している。
  • MAEは容易にスケールアップでき、より大きなモデルから着実に改善を見せる。ViT-H(224サイズ)を使用して86.9%の精度を得、448サイズでファインチューニングすることで、IN1Kデータのみを使用して87.8%の精度を達成する。IN1Kデータのみを使用するすべての方法の中で以前の最高精度は87.1%(512サイズ)であり、先進的なネットワークに基づいている。我々は、非自明なマージンで最先端を改善し、IN1K(外部データなし)の高競争ベンチマークである。
  • BEiTとの比較:MAEはBEiTよりも正確でありながら、よりシンプルで速い。我々の方法はピクセルを再構築するのに対し、BEiTはトークンを予測する:BEiTはViT-Bでピクセルを再構築する際に1.8%の劣化を報告している。我々はdVAEの事前学習を必要としない。さらに、MAEはBEiTよりもかなり速い(エポックあたり3.5倍)。

Comparisons with supervised pre-training

• 教師あり事前学習との比較:元のViT論文では、IN1Kで訓練されたときにViT-Lが劣化する。著者らの実装の教師あり訓練はより良いが、精度は飽和する。MAEの事前学習は、IN1Kのみを使用しても、より良く一般化することができる:ゼロからの訓練と比べて、より高容量のモデルに対する利得が大きい。これは、JFT-300Mの教師あり事前学習と類似した傾向に従う。この比較は、MAEがモデルサイズをスケールアップするのに役立つことを示している。

Partial Fine-tuning

  • 線形プロービングとファインチューニングの結果は大きく無関係である。線形プロービングは過去数年間で人気だったが、深層学習の強みである強力な非線形特徴を追求する機会を逃している。
  • 中間地点として、部分ファインチューニングプロトコルを研究する:最後の数層をファインチューニングしながら、他の層を凍結する。
  • 1つのトランスフォーマーブロックのみをファインチューニングするだけで、精度が73.5%から81.0%へと大幅に向上する。さらに、最後のブロックの「半分」(つまり、そのMLPサブブロック)のみをファインチューニングすることで、79.1%と、線形プロービングよりもはるかに良い結果を得ることができる。このバリアントは本質的にMLPヘッドのファインチューニングである。数ブロック(例えば、4ブロックや6ブロック)をファインチューニングすることで、完全なファインチューニングに近い精度を達成できる。
  • MoCo v3(ViT-Lの結果が利用可能なコントラスティブメソッド)との比較も示されている。MoCo v3は線形プロービング精度が高いが、その部分ファインチューニングの結果はMAEよりも悪い。4ブロックを調整する際のギャップは2.6%である。MAEの表現は線形分離可能性が低いものの、非線形特徴として強く、非線形ヘッドが調整されるときに良好に機能する。
  • 線形分離可能性は、表現品質を評価する唯一の指標ではないことが示唆される。線形プロービングが転移学習パフォーマンス(例えば、オブジェクト検出)とよく相関していないことも観察されている。NLPでは、事前学習のベンチマークに線形評価がよく使用されるわけではない。

Transfer Learning Experiments

  • ダウンストリームタスクでの転移学習の評価:Table 3の事前学習モデルを使用して、ダウンストリームタスクで転移学習を評価する。
  • オブジェクト検出とセグメンテーション:Mask R-CNNをCOCOでエンドツーエンドにファインチューニングする。ViTバックボーンはFPNで使用するために適応される。すべてのエントリーにこのアプローチを適用し、オブジェクト検出のためのボックスAPとインスタンスセグメンテーションのためのマスクAPを報告する。教師あり事前学習と比較して、我々のMAEはすべての構成でより良いパフォーマンスを示す。特に、より大きなViT-Lでは、我々のMAE事前学習が教師あり事前学習を4.0ポイント上回る(53.3 vs. 49.3)。
  • セマンティックセグメンテーション:ADE20KでUperNetを使用して実験する。我々の事前学習は、教師あり事前学習よりも結果を大幅に改善する。ピクセルベースのMAEはトークンベースのBEiTよりも優れているか、同等である。これらの観察はCOCOでのものと一致している。
  • 分類タスク:iNaturalistsとPlacesのタスクで転移学習を研究する。iNatでは、我々の方法は大きなモデルで著しく精度が向上する強いスケーリング挙動を示す。Placesでは、我々のMAEは数十億の画像での事前学習を通じて得られた以前の最良の結果を上回る。
  • ピクセルトークン:MAEの再構築ターゲットとしてのピクセルトークンを比較する。dVAEトークンを使用することは、正規化されていないピクセルを使用するよりも良いが、テストしたすべてのケースで正規化されたピクセルと統計的に類似している。これは、我々のMAEにトークン化は必要ないことを再度示している。

Discussion and Conclusion

  • 深層学習の核心は、よくスケールするシンプルなアルゴリズムである。自然言語処理NLP)では、シンプルな自己教師あり学習方法が、指数関数的にスケールするモデルからの恩恵を可能にする。
  • コンピュータビジョンでは、実用的な事前学習パラダイムは主に教師ありであるにもかかわらず、自己教師あり学習において進歩がある。この研究では、ImageNetおよび転移学習において、オートエンコーダーNLPでの技術と類似したシンプルな自己教師あり方法)がスケーラブルな恩恵を提供することを観察する。視覚における自己教師あり学習は、NLPと同様の軌道を辿り始めている可能性がある。
  • 一方で、画像と言語は異なる性質のシグナルであり、この違いを慎重に対処する必要がある。画像は、視覚的な言葉の類似物への意味的な分解なしに記録された光に過ぎない。オブジェクトを取り除くのではなく、意味のあるセグメントを形成する可能性が最も低いランダムなパッチを取り除く。同様に、MAEは意味のある実体ではないピクセルを再構築する。それでも、MAEが複雑な全体的な再構築を推測し、多くの視覚的概念、すなわち意味論を学習していることを示唆する観測結果がある。この振る舞いは、MAE内部の豊かな隠れた表現によって生じると仮定する。この視点が将来の研究にインスピレーションを与えることを著者らは期待している。

物話風まとめ(Chatgpt作)

昔々、あるところに、深い学びを追求する賢者たちがおりました。彼らは、言葉の森(NLP)と絵の国(コンピュータビジョン)の二つの大きな王国で、知識の謎を解き明かす鍵を探していました。

言葉の森では、賢者たちはシンプルな自己教師あり学習法という小道具を用いて、絶え間なく成長する大木(モデル)から恩恵を受けることができました。この森では、誰もが自由にその恩恵を享受し、賢者たちは大きな進歩を遂げていきました。

一方、絵の国では、実用的な事前学習というパラダイムが主に教師ありの手法で支配されていましたが、自己教師あり学習の可能性も静かに芽生え始めていました。そんなある日、賢者たちはオートエンコーダーという古い呪文を見つけました。これは、自己教師あり学びのシンプルな方法であり、言葉の森での技術に類似していましたが、絵の国での応用はまだ始まったばかりでした。

賢者たちは、このオートエンコーダーを使って、ランダムに選ばれた絵のパッチを取り除き、それらを再び描くことで、絵の本質を理解しようとしました。彼らは驚くべき発見をしました。オートエンコーダーは、取り除かれたパッチを見事に再現するだけでなく、絵全体の意味を把握し、視覚的な概念や意味論を学習しているかのようでした。

しかし、賢者たちはまた、画像と言葉が本質的に異なるシグナルであることを理解していました。画像は単なる光の記録であり、視覚的な「言葉」へと自然に分解されることはありませんでした。それにもかかわらず、オートエンコーダーは、その豊かな隠れた表現を通じて、複雑で全体的な再構築を推測し、多くの視覚的概念を学習しているようでした。

この物語は、シンプルなアルゴリズムがどのようにして大きな可能性を秘めているか、そして異なる王国(NLPとコンピュータビジョン)で同じ道具(自己教師あり学習)がどのように異なる形で恩恵をもたらすかを示しています。賢者たちは、このオートエンコーダーの冒険から得られた知見が、未来の探求への新たなインスピレーションとなることを願っています。そして彼らの学びの旅は、まだまだ続いていくのでした。