論文要約:GPT Takes the Bar Exam

GPT Takes the Bar Exam 

Michael Bommarito IIDaniel Martin Katz 2022

arxiv.org

ライセンス

CC BY 4.0 Deed | Attribution 4.0 International | Creative Commons

 

Abstract

  • 研究の目的
    • アメリカ合衆国の法曹資格試験(バー試験)の多肢選択式セクション(MBE)におけるOpenAIのtext-davinci-003モデル(GPT-3.5とも呼ばれる)の性能を実験的に評価すること。
  • 手法
    • GPT-3.5のゼロショット性能に対して、ハイパーパラメータの最適化とプロンプトエンジニアリングを適用し、その影響を評価。また、MBEの完全な練習試験における正解率と、エビデンスおよびトーツの科目での合格率を測定。
  • 結果
    • GPT-3.5は、ベストプロンプトとパラメーターを用いた場合、MBE練習試験での正解率が50.3%に達し、25%の基準推測率を大幅に上回り、エビデンスとトーツの両方で合格率を達成した。また、GPT-3.5の選択肢のランキングは正解と高い相関を示し、上位2つおよび上位3つの選択肢がそれぞれ71%、88%の割合で正解であることを示した。
  • 結論
    • GPT-3.5のMBEセクションにおける性能は、LLMが近い将来バー試験のMBE部分に合格する可能性が高いことを強く示唆している。ただし、LLMとGPTの新しい科学的理解と所有権の性質により、これらの結果の解釈は限定されている。

Introduction

法律システムの複雑さについて
  • 法律システムの複雑さが増しており、社会が求める法的サービスの量、質、アクセシビリティの向上のために技術の支援が必要となっている。
  • 人工知能やプロセスエンジニアリングは、法律システムの非専門家および専門家の両方に対して数十年にわたり支援してきた。
  • しかしながら法的言語の複雑さと法的知識の広大さが、法的な問題のニュアンスを理解するシステムの開発を困難にしてきた。
  • 法律は言語の使用に大きく依存しており、法的文書は非常に大量に生成されている。法的言語は複雑であり、法律専門家はこの言語を理解し生成するためにほぼ10年間の教育と専門的トレーニングを受けている。
  • 法的言語の複雑さは、特に高度に規範化された慣習と厳密に正確なフレーズによるものであり、通常の言語とは大きく異なる。
機械学習による言語モデルの発展
  • 近年、自然言語処理と計算の進歩により、機械学習技術のパフォーマンスが大幅に向上している。
  • トランスフォーマーアーキテクチャの導入は、特にテキストや画像のモダリティにおいて革命をもたらし、成功している。
  • OpenAIのGPTモデルは、特に有名でアクセスしやすい大規模言語モデル(LLM)であり、GPT-3は1750億のパラメーターを持つ自己回帰言語モデルである。
  • OpenAIのモデルへのアクセスは、商業的および倫理的理由から、OpenAIのAPIを通じてのみ提供されており、テキスト完了、コード完了、画像生成、埋め込み生成のエンドポイントを提供している。
  • GPT-3.5やChatGPTはゼロショットやフューショットのタスクにおいてこれまでにない性能を示しているが、ドメイン固有のモデルではなく、Multistate Bar Examination (MBE)のような法的試験において最先端のLLMが成功するかは未解明ある。

DATA

  • MBEの質問は、法的知識と読解力の両方を試すように設計されており、英語の上級レベルの意味論的および統語論的理解を要求する。
  • MBEの質問は直接的な法的問題を出すのではなく、テスト受験者に架空の状況を提示し、詳細に飾り付けられた事実の記述を提供する。これらの詳細の中には重要なものもあれば、読者を惑わせるためだけに追加されたものもある。
  • 以下は公開されているサンプル質問であり、列車によって車が衝突した事故に関して、交差点近くに15年間住んでいた住民の証言の許容性について問われている。

Question: A man sued a railroad for personal injuries suffered when his
car was struck by a train at an unguarded crossing. A major issue is
whether the train sounded its whistle before arriving at the crossing.
The railroad has offered the testimony of a resident who has lived near
the crossing for 15 years. Although she was not present on the occasion
in question, she will testify that, whenever she is home, the train always
sounds its whistle before arriving at the crossing.
Is the resident’s testimony admissible?
(A) No, due to the resident’s lack of personal knowledge regarding the
incident in question.
(B) No, because habit evidence is limited to the conduct of persons,
not businesses.
(C) Yes, as evidence of a routine practice.
(D) Yes, as a summary of her present sense impressions. 

  • Bar試験のMBE部分は、上記のサンプルのような約200の質問から構成される。実際の試験では、8つのカテゴリから25の質問が出され、そのうち7つは特定の法律分野に対応し、1つはテスト設計の実験用である。
  • 一部の質問は、州の法曹会やNCBEによって最終スコアから除外される場合があり、個々の州の法曹会とNCBEは、州内外の受験者のパフォーマンスを評価し、一部の質問を削除し、生のスコアを調整して管轄区域間の一貫性を維持する。
  • NCBEは試験設計と準備の一環として、試験のパフォーマンスに関する統計情報も維持しており、平均的な学生が4問中1問以上を誤答する難易度が表から明らかである。

  • この研究のために、MBE部分の標準的な試験準備資料をNCBEから購入し、練習問題と模擬試験を含む。これらの資料は再配布できないが、本論文の結果を再現したい研究者は、NCBEのオンラインストアから約300USDでこれらのデータを購入できる。

Methods

  • 実験評価では、text-davinci-003テキスト完了APIに対してゼロショットプロンプトを使用した。このセクションでは、プロンプトの設計、反復、関連するAPIハイパーパラメータ、およびモードのファインチューニングの試みについて詳述する。
Prompt Engineering and Responses 
  • プロンプトエンジニアリングとは、LLMが提供されるプロンプトに非常に敏感であるため、そのようなプロンプトを作成する「技術」を指す。この研究では、プロンプトエンジニアリングに大きく取り組んだ。
  • テストされたプロンプトタイプには、次のものがある:
    • 1. 単一選択のみ
    • 2. 単一選択とその理由の説明
    • 3. 上位2つの選択のみ
    • 4. 上位2つの選択とその理由の説明
    • 5. 上位2つの選択と再プロンプト
    • 6. すべての選択肢の順位付け
    • 7. 上位3つの選択肢の順位付け
  • これらのプロンプト間で結果に大きな違いは概ね見られなかったが、以下のように上位3つの選択を順位付けする最後のプロンプト戦略のみが、モデルの正確性を大幅に向上させた。

  • GPT-3.5のヘッド層に直接洞察がないため、なぜこのプロンプトの変更が他のプロンプトとは異なる方法でモデルの振る舞いに影響を与えたのかについてさらにコメントすることはできない。
  • このプロンプトが、最も不正解を排除する非帰結性能と、確率的帰結と記憶を最適に組み合わせたものであると推測される。
  • すべての模擬試験において、プロンプトと完全なJSONレスポンス(OpenAI APIリクエストIDを含む)が記録された。テキスト完了レスポンスの各行は解析され、採点または質的分析のために保存された。
  • ごく少数のケース(< 1%)では、「My first choice is (D)」のような自然言語やフォーマットのバリエーションが含まれており、これらのバリエーションはパーサーの例外ケースを通じて処理された。レスポンスは人間によって手動で変更されたり評価されたりすることはなかった。
  • 技術的な観点から、これらのプロンプトはすべて、モデルが声明が真実か非真実かを評価する必要がある従来のテキスト帰結タスクに関連している。ゼロショット試験シミュレーションでは、帰結問題に関する既存の研究とは異なり、仮説、主張、または知識の体系のフレーミングをほとんど制御できない。
  • GPT内に存在する、明示的または暗示的な任意の知識グラフや状態モデルについての洞察がない。また、いくつかのケースでは、帰結の観点から複数の選択が正しい可能性があり、受験者は試験設計の知識に基づいて選択を順位付けする必要がある。このテストには、単純な二項帰結/非帰結問題よりも、検索と関連性スコアリングに似た要素が含まれている。
(Hyper)parameters for GPT-3 
  • 機械学習と計算研究の結果は、一般的にモデルのパラメーターやハイパーパラメーターに非常に敏感である。この研究では、上記のようにプロンプトを変化させることに加え、モデルの「温度」のようなハイパーパラメーターがモデルの性能にどのように影響するかも評価した。
  • 評価したパラメーターには以下が含まれる:1. 温度(サンプリングの温度;0.0は決定論的、高いほど「ランダム」)、2. top p(核サンプリング確率)、3. best of(サーバー側で[N]個の完了を生成し、トークンごとの最高のログ確率を持つものを「最良」として返す)、4. max tokens(生成するトークンの最大数)。
  • 温度は{0.0, 0.25, 0.5, 0.75, 1.0}、top pは{0.75, 1.0}、best ofは{1, 2, 4}、max tokensは説明なしのプロンプトでは{16, 32}、説明ありのプロンプトでは{128, 256, 1024}でテストした。
Fine-tuning
  • GPT-3.5のようなLLMが大きな関心を集める一因は、そのゼロショットまたはフューショットの性能が非常に優れているためである。それにもかかわらず、一部の状況では、LLMの一部または全ての層を再トレーニングすることで性能が向上する可能性がある。
  • OpenAIはAPIを通じて再トレーニングや「ファインチューニング」の機能を提供しており、学習率やバッチサイズなどのトレーニングプロセスをある程度制御することができる。200個の未公開の模擬MBEバー試験問題を用いてtext-davinci-003のファインチューニングを試みたが、すべてのケースでファインチューニングモデルはtext-davinci-003自体の性能を大幅に下回った。
  • 高品質なデータの不足と評価のため、GPTモデルのファインチューニングをこれ以上追求しなかった。これらの結果は、他者によって観察されたLLMのファインチューニングリスクを可能性があることを示している。

Results

  • 総計で107回のサンプル試験を実施し、上位3つの選択肢の順位付け(プロンプトスタイル#7)が最も良い性能を示した。このプロンプトについて41回のサンプルランをパラメーター組み合わせで収集した。
  • GPTは全体の多肢選択式試験にはまだ合格していないが、25%の基本ランダムチャンス率を大幅に上回り、少なくとも2つのカテゴリー(エビデンスとトーツ)で平均合格率に達している。
  • 全カテゴリー平均で、GPTは人間のテスト受験者に約17%遅れている。しかし、エビデンス、トーツ、民事訴訟においてはこの差は無視できるか一桁であり、エビデンスに関する質問では既に人間と同等である。
  • 憲法法、不動産法、契約法、刑法の残りのカテゴリーでは、差はより顕著であり、刑法の場合には36%まで上昇している。この性能の差は、GPTのトレーニングデータから欠如している知識領域、またはモデルの圧縮やファインチューニング中に削除された可能性がある。
  • GPTの答えのランクと正解の相関が低い場合、その法律領域に関する知識が真に欠如していると考えられる。一方で、二番目または三番目の選択肢が正しくなることが多い場合、問題の設計が性能の低下に責任があると推測できる。GPTの第二および第三のベストアンサーは正解と高い相関を示しており、全カテゴリーでトップ2の回答が50%の基本ランダムチャンス率を上回り、7つのカテゴリー中5つでNCBE報告平均を超えている。

Conclusion and Future Work

  • この研究では、NCBEのモデルバー試験のMBE部分におけるGPT-3.5の実験的評価を記録した。GPT-3.5は、すべてのプロンプトとハイパーパラメータ値において、ランダムな推測の基準率を大幅に上回った。
  • ファインチューニングなしで、GPT-3.5はバーの2つのカテゴリーで合格率を達成し、1つのカテゴリーで人間のテスト受験者と同等になった。可能な選択肢の順位付けは、ランダムチャンスを超えて正解と強く相関しており、法的領域に対する一般的な理解を確認している。
  • GPT-3.5は、このタスクにおいて私たちの期待を大幅に上回る性能を示した。GPTの理解や候補回答間の選択方法についての解釈能力は限られているが、類似の問題の歴史はLLMが間もなくバー試験に合格する可能性が高いことを強く示唆している。
  • GPT-4やLAIONのBloomファミリーのモデルに関連する逸話的証拠に基づくと、これが今後0〜18ヶ月以内に発生する可能性が非常に高い。GPT-J、GPT-Neo、Bloomファミリーのモデルを用いた実験設計の再現とファインチューニングを続ける予定である。また、MBEはバー試験の一部であり、将来の研究ではGPT-3.5および他のモデルをエッセイ(MEE)および状況判断(MPT)セクションにも適用して評価する予定である。

 

おまけ GPT4によるサンプル問題の解説と答え(日本語)

問題文について

Question: A man sued a railroad for personal injuries suffered when his
car was struck by a train at an unguarded crossing. A major issue is
whether the train sounded its whistle before arriving at the crossing.
The railroad has offered the testimony of a resident who has lived near
the crossing for 15 years. Although she was not present on the occasion
in question, she will testify that, whenever she is home, the train always
sounds its whistle before arriving at the crossing.
Is the resident’s testimony admissible?
(A) No, due to the resident’s lack of personal knowledge regarding the
incident in question.
(B) No, because habit evidence is limited to the conduct of persons,
not businesses.
(C) Yes, as evidence of a routine practice.
(D) Yes, as a summary of her present sense impressions. 

(以下Chatgpt解答)

この問題は、ある男性が無人の交差点で列車に自動車が衝突され、個人的な損害を受けたことに関して鉄道会社を訴えたケースについてです。主な争点は、列車が交差点に到着する前に警笛を鳴らしたかどうかです。

このケースで、鉄道会社は15年間その交差点の近くに住んでいる住民の証言を提供しています。この住民は、問題の事故が発生した時には現場にいませんでしたが、自宅にいる時はいつも列車が交差点に到着する前に警笛を鳴らしていると証言します。

問題は、この住民の証言が法廷で許容されるかどうかです。

証言が許容されるかどうかを判断するには、証拠の規則、特に習慣やルーチンの実践に関連する証言の規則を理解する必要があります。ここでのポイントは、この住民が特定の事故について直接の知識を持っていなくても、長年にわたり観察した列車の一貫した行動パターン(つまり、交差点に到着する前に警笛を鳴らすというルーチン)に基づいて証言することができるかどうかです。

分かりやすく説明すると、この問題は、過去の一貫した行動(この場合は列車が警笛を鳴らす習慣)を基に、特定の事件において同じ行動が取られたと推測する証言が、裁判で証拠として使えるかどうかを問うています。

 

答え

この問題の正解は、(C)住民の証言が「はい、ルーチンの実践としての証拠」として許容される、というものです。これを理解するために、証拠法のいくつかの基本原則を見てみましょう。

  1. 直接的な知識の必要性: 通常、証言するためには、その出来事についての直接的な知識が必要です。しかし、このケースでは、住民は特定の事故について直接的な知識を持っていません。彼女は事故が起こった時に現場にいたわけではありません。

  2. 習慣またはルーチンの実践に関する証拠: 証拠法は、個人または組織の習慣やルーチンの実践に基づく行動を証明するために、そのような習慣やルーチンの証拠を許容することがあります。これは、その習慣やルーチンが一貫して行われている場合、特定の場面で同様の行動が取られた可能性が高いと推測するためです。

このケースで言えば、住民が過去15年間にわたって、自宅にいる時は常に列車が交差点に到着する前に警笛を鳴らしているという一貫した行動を目撃しているという証言は、鉄道会社がその交差点で列車が近づく際に警笛を鳴らすというルーチンの実践を持っていることを示すものです。

この理由から、彼女の証言は「ルーチンの実践」として証拠になり得るのです。つまり、彼女は特定の事故についての直接的な知識を持っていなくても、列車が交差点に到着する前に警笛を鳴らすという鉄道会社の一貫した行動パターンについて証言することができ、それが訴訟の文脈で重要な情報となる可能性があります。

この理論に基づき、住民の証言は、鉄道会社が特定の日に警笛を鳴らしたかどうかを直接的には証明しませんが、列車が交差点に近づく際に警笛を鳴らすという一貫したルーチンがあることを示す証拠として許容されます。これが、選択肢(C)が正しい理由です。