論文要約:The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Shuming Ma∗ Hongyu Wang∗ Lingxiao Ma Lei Wang Wenhui Wang
Shaohan Huang Li Dong Ruiping Wang Jilong Xue Furu Wei⋄ 

arxiv.org

このページの図面・表の権利は全て論文の著者らに帰属があります。

 

この論文を一行でいうと

BitNet b1.58: メモリとエネルギーを削減しパフォーマンスを維持言語モデル新時代へ

 

Abstract

  • 目的:新世代の1ビット大規模言語モデル(LLM)であるBitNet b1.58※1を紹介し、高性能かつコスト効率の良いLLMの開発に向けた新たなスケーリング法則と訓練レシピを定義すること。

  • 手法:BitNet b1.58は、LLMの各パラメータ(または重み)を{-1, 0, 1}のみで表現する1ビットLLMを開発。

  • 結果:BitNet b1.58は、同じモデルサイズとトレーニントークンを用いた完全精度Transformer LLMと比較して、困惑度とエンドタスクで同等の性能を示しながら、レイテンシ、メモリ、スループット、エネルギー消費の面で顕著にコスト効率が良いことが示された。

  • 結論:1.58ビットLLMは、高性能かつコスト効率の良い新世代のLLMを訓練するための新たなスケーリング法則とレシピを提供し、1ビットLLMに最適化された特定のハードウェアの設計に向けた新たな時代を築く。

The Era of 1-bit LLMs 

  • 近年、AI分野では大規模言語モデル(LLM)のサイズと能力が急速に成長し、多様な自然言語処理タスクで顕著な性能を示しているが、そのサイズの増加は展開における課題を生じさせ、高いエネルギー消費による環境および経済への影響に対する懸念を引き起こしている。
  • これらの課題に対処する一つのアプローチは、ポストトレーニン量子化を用いて推論のための低ビットモデルを作成することであり、これにより重みとアクティベーションの精度を下げ、LLMのメモリと計算要求を大幅に削減する。
  • BitNetをはじめとする1ビットモデルアーキテクチャの最近の研究は、性能を維持しつつLLMのコストを削減する有望な方向性を示している。BitNetの行列乗算では整数加算のみを行い、LLMのエネルギーコストを大幅に節約する。
  • この研究では、各パラメータが三値{-1, 0, 1}を取る1ビットLLMのバリアントであるBitNet b1.58を紹介し、これによりメモリ消費、スループット※2、レイテンシ※3の面でFP16 LLMベースラインと比較して大幅に効率的であること、さらには特徴フィルタリングを可能にする0の導入により1ビットLLMの性能が大幅に向上するなどの追加的な利点を示す。

BitNet b1.58

  • BitNet b1.58は、nn.LinearをBitLinearに置き換えたTransformerであるBitNetアーキテクチャに基づいており、1.58ビットの重みと8ビットのアクティベーションでゼロから訓練される。
  • 重みを-1、0、+1に制限するために、absmean量子化関数を採用している。これは、重み行列をその平均絶対値γでスケーリングし、次に各値を{-1, 0, +1}の中で最も近い整数に丸める(Round Clip)。

  • アクティベーション量子化関数はBitNetと同様に実装されているが、非線形関数の前にアクティベーションを[0, Qb]の範囲にスケーリングするのではなく、トークンごとに[−Qb, Qb]にスケーリングしてゼロポイント量子化を排除する。
LLaMA-alike Components.

Result

  • BitNet b1.58と再現したFP16 LLaMA LLMを様々なサイズで比較し、RedPajamaデータセットで1000億トークンに対して事前訓練を行い、公平な比較を実施。
  • 言語タスクの範囲におけるゼロショット性能を評価し、WikiText2とC4データセットの検証困惑度も報告した。
  • BitNet b1.58は、3Bモデルサイズで完全精度のLLaMA LLMと困惑度の面で一致し、2.71倍速く、GPUメモリを3.55倍少なく使用する。
  • BitNet b1.58 3.9Bは、LLaMA LLM 3Bよりも顕著に優れており、2.4倍速く、メモリ消費は3.32倍少ないが、エンドタスクの精度では一致またはそれを上回る性能を示す。

 

  • これらの結果は、BitNet b1.58が現行の最先端LLMモデルに対してパレート改善(悪くなるところのない改善)を実現していることを示している。
Memory and Latency
  • モデルサイズを7B、13B、70Bに拡大し、コストを評価した結果、モデルサイズがスケールするにつれて、速度向上が増加し、特にBitNet b1.58 70BはLLaMA LLMベースラインよりも4.1倍速い。

  • メモリ消費も同様の傾向を示し、大きなモデルほどメモリ効率が良くなる。embedding layerが完全精度のままだが、大きなモデルほど、モデル全体に対する、embedding layerの割合が小さくなるためである。両方のレイテンシとメモリは2ビットカーネルで測定されており、コストをさらに削減するための最適化の余地がある。

Energy

  • BitNet b1.58は行列乗算における算術演算エネルギー消費を71.4倍削減し、モデルサイズがスケールするにつれてFP16 LLaMA LLMベースラインと比較してエネルギー消費の効率が向上する。

Throughput 
  • BitNet b1.58 70BはLLaMA LLMと比較して最大11倍のバッチサイズをサポートでき、8.9倍高いスループットを実現する。

 

  • BitNet b1.58は、モデルの性能と推論コストに関する新しいスケーリング法則を可能にしており、異なるモデルサイズ間での等価性を以下のように提供する。
    • 13B BitNet b1.58は、レイテンシ、メモリ使用量、エネルギー消費の面で、3B FP16 LLMよりも効率的である。
    • 30B BitNet b1.58は、レイテンシ、メモリ使用量、エネルギー消費の面で、7B FP16 LLMよりも効率的である。
    • 70B BitNet b1.58は、レイテンシ、メモリ使用量、エネルギー消費の面で、13B FP16 LLMよりも効率的である。
Training with 2T Tokens
  • 2Tトークンでの訓練では、BitNet b1.58をStableLM-3Bのデータレシピに従って2Tトークンで訓練し、Winogrande、PIQA、SciQ、LAMBADA、ARC-easyで構成されるベンチマークで評価した。
  • BitNet b1.58は、すべてのエンドタスクで優れた性能を達成し、1.58ビットLLMも強力な一般化能力を持っていることを示している。

Discussion and Future Work

1-bit Mixture-of-Experts (MoE) LLMs
  • Mixture-of-Expert(MoE)LLMは、計算FLOPsを大幅に削減しつつ、高いメモリ消費とチップ間通信のオーバーヘッドが展開とアプリケーションを制限するが、これらの課題は1.58ビットLLMによって解決可能である。これにより、MoEモデルを展開するために必要なデバイス数が減少し、ネットワークを介してアクティベーションを転送するオーバーヘッドが大幅に削減される。
Native Support of Long Sequence in LLMs
  • 長いシーケンスのネイティブサポートは、KVキャッシュ※4によるメモリ消費が長いシーケンス推論の主な課題であるが、BitNet b1.58は16ビットから8ビットへのアクティベーションの削減により、同じリソースでコンテキストの長さを2倍にすることで、長いシーケンスのサポートに向けた重要なステップを表す。
LLMs on Edge and Mobile
  • 1.58ビットLLMの使用は、メモリと計算能力に制限があるエッジおよびモバイルデバイス上での言語モデルの性能を大幅に向上させる可能性があり、これによりこれまで不可能だったアプリケーションが可能になり、エッジおよびモバイルデバイスの能力が大幅に向上する。
New Hardware for 1-bit LLMs
  • 1ビットLLM用の新しいハードウェアについては、Groqのような最近の研究がLLM用の特定ハードウェア(例えば、LPU)の構築において有望な結果と大きな可能性を示しており、BitNetが可能にする新しい計算パラダイムに特化して最適化された新しいハードウェアとシステムの設計に向けた行動を呼びかける。

 

この論文の礎となるBitNetの要約

reseachpaper-matome.hatenablog.com

 

語句説明

※1 なぜ1.58?  ・・・{1,0、-1}の値がそれぞれ1/3で出現する場合の平均情報量が1.58

※2 スループット・・・単位時間あたりに処理または伝送できるデータの量

※3 レイテンシ・・・あるシステムやネットワーク内で処理やデータが伝達されるのに要する時間遅延のこと

※4 KVキャッシュ・・・Key-Value(キー-値)キャッシュの略で、データをキーと値のペアとして保存する一種のデータストレージまたはキャッシュメカニズム