オープンで効率的な基盤言語モデル「LLaMA」
Meta AI(旧Facebook AI Research)は、7Bから65Bのパラメータを持つ基盤言語モデル群「LLaMA(Large Language Model Meta AI)」を発表しました。この研究は、完全にオープンなデータセットのみで訓練された最先端の言語モデルを実現し、研究コミュニティに公開するという点で画期的です。
LLaMAの最大の特徴は、公開されているデータセットのみを使用し、一般に公開されていない独自データセットに頼ることなく、トップレベルの性能を達成していることです。特筆すべきは、LLaMA-13B(130億パラメータ)モデルがGPT-3(1,750億パラメータ)を多くのベンチマークで上回り、LLaMA-65Bモデルが現在最高レベルとされるChinchilla-70BやPaLM-540Bと同等の性能を示したことです。
公開データセットのみによる事前学習
LLaMAの訓練データは、全て公開されているデータセットを組み合わせたもので、総計約1.4兆トークンに達します。データソースの内訳は、主にCommonCrawl(67%)、C4(15%)、GitHub(4.5%)、Wikipedia(4.5%)、GutenbergとBooks3(4.5%)、ArXiv(2.5%)、StackExchange(2%)となっています。
この多様なデータソースを用いることで、モデルが幅広い知識と言語理解能力を身につけることができます。また、データは高品質なフィルタリングや前処理が施されており、例えばCommonCrawlデータは、重複の排除、言語識別、および品質フィルタリングが行われています。Wikipediaデータは20言語(ラテン文字とキリル文字を使用するもの)からなり、ArXivの論文データは科学的な内容を補完しています。
トランスフォーマーアーキテクチャの改良
LLaMAは、トランスフォーマーアーキテクチャをベースに、様々な最新の改良を加えて設計されています。主な特徴として、以下の点が挙げられます:
- 事前正規化:訓練の安定性を向上させるため、各トランスフォーマー副層の入力を正規化する手法を採用。RMSNorm正規化関数を使用。
- SwiGLU活性化関数:パフォーマンス向上のためReLU非線形性をSwiGLU活性化関数に置き換え。
- 回転位置埋め込み:絶対位置埋め込みを削除し、代わりに回転位置埋め込み(RoPE)をネットワークの各層に追加。
ベンチマークにおける優れた性能
LLaMAモデルは、常識推論、閉じた本での質問応答、読解力、数学的推論、コード生成など、様々なベンチマークで評価されました。特筆すべき結果として、以下が挙げられます:
- 常識推論:LLaMA-65Bは、BoolQ、PIQA、HellaSwagなどのベンチマークでChinchilla-70Bを上回り、ほとんどのベンチマークでPaLM-540Bを凌駕。
- クローズドブック質問応答:Natural QuestionsとTriviaQAのベンチマークでLLaMA-65Bは最先端の性能を達成。13BモデルでもGPT-3やChinchillaと競合する性能を実現。
- 数学的推論:MATHおよびGSM8kベンチマークでは、LLaMA-65Bが数学データで微調整されていないにもかかわらず、Minerva-62Bを上回る結果を示す。
- コード生成:HumanEvalとMBPPにおいて、LLaMAはLaMDAやPaLMなどの同等サイズの一般モデルよりも優れた性能を示す。
特に注目すべきは、LLaMA-13Bが10倍以上小さいにもかかわらず、GPT-3の175Bモデルを上回る性能を示している点です。このモデルは単一のV100 GPU上で推論を実行できるため、AI研究の民主化に大きく貢献すると考えられます。
効率的な実装と環境への配慮
LLaMAの訓練では、効率的な実装技術が多く採用されています。特に、xformersライブラリを使用した因果的マルチヘッド注意演算子の効率的な実装により、メモリ使用量と計算量を削減。また、バックワードパス中に再計算される活性化量を減らし、モデルと系列の並列化を使用してメモリ使用量を削減しています。
環境面では、65Bパラメータモデルの訓練は2048台のA100 GPUで約21日かかり、推定炭素排出量は173 tCO2eqとなりました。この値はOPT-175B(137 tCO2eq)やBLOOM-175B(183 tCO2eq)と比較可能ですが、より小さいモデル(例:LLaMA-13B)の排出量は大幅に少なく(23 tCO2eq)、これらのモデルを公開することで将来の炭素排出量削減に貢献することが期待されています。
まとめと今後の展望
Meta AIによるLLaMAの公開は、大規模言語モデルの研究と開発の民主化に向けた重要な一歩です。完全にオープンなデータセットのみで訓練された高性能モデルが実現可能であることを示し、特に小型モデル(7B、13B)は個人の研究者でも扱える規模でありながら、はるかに大きなモデルに匹敵する性能を発揮しています。
研究者たちは、モデルをオープンソース化することで、大規模言語モデルの開発を加速し、堅牢性の向上や偏見・有害な内容といった既知の問題への対策を進めることを期待しています。今後は命令チューニングや能力向上のための更なる研究が進められる見込みです。