Meta AIのオープンソース言語モデル「LLaMA」の詳細分析

オープンで効率的な基盤言語モデル「LLaMA」

Meta AI(旧Facebook AI Research)は、7Bから65Bのパラメータを持つ基盤言語モデル群「LLaMA(Large Language Model Meta AI)」を発表しました。この研究は、完全にオープンなデータセットのみで訓練された最先端の言語モデルを実現し、研究コミュニティに公開するという点で画期的です。

LLaMAの最大の特徴は、公開されているデータセットのみを使用し、一般に公開されていない独自データセットに頼ることなく、トップレベルの性能を達成していることです。特筆すべきは、LLaMA-13B(130億パラメータ)モデルがGPT-3(1,750億パラメータ)を多くのベンチマークで上回り、LLaMA-65Bモデルが現在最高レベルとされるChinchilla-70BやPaLM-540Bと同等の性能を示したことです。

主要な言語モデルとLLaMAの比較
LLaMAの各モデルサイズと他の代表的な言語モデルとのパラメータ数比較

公開データセットのみによる事前学習

LLaMAの訓練データは、全て公開されているデータセットを組み合わせたもので、総計約1.4兆トークンに達します。データソースの内訳は、主にCommonCrawl(67%)、C4(15%)、GitHub(4.5%)、Wikipedia(4.5%)、GutenbergとBooks3(4.5%)、ArXiv(2.5%)、StackExchange(2%)となっています。

LLaMA事前学習データの構成
LLaMAの事前学習に使用されたデータセットの構成比率と種類

この多様なデータソースを用いることで、モデルが幅広い知識と言語理解能力を身につけることができます。また、データは高品質なフィルタリングや前処理が施されており、例えばCommonCrawlデータは、重複の排除、言語識別、および品質フィルタリングが行われています。Wikipediaデータは20言語(ラテン文字とキリル文字を使用するもの)からなり、ArXivの論文データは科学的な内容を補完しています。

トランスフォーマーアーキテクチャの改良

LLaMAは、トランスフォーマーアーキテクチャをベースに、様々な最新の改良を加えて設計されています。主な特徴として、以下の点が挙げられます:

LLaMAモデルのアーキテクチャとサイズ
各LLaMAモデルのパラメータ、次元、ヘッド数、レイヤー数などのアーキテクチャ仕様

ベンチマークにおける優れた性能

LLaMAモデルは、常識推論、閉じた本での質問応答、読解力、数学的推論、コード生成など、様々なベンチマークで評価されました。特筆すべき結果として、以下が挙げられます:

ベンチマークにおけるLLaMAの性能
様々なNLPベンチマークにおけるLLaMAモデルの性能比較

特に注目すべきは、LLaMA-13Bが10倍以上小さいにもかかわらず、GPT-3の175Bモデルを上回る性能を示している点です。このモデルは単一のV100 GPU上で推論を実行できるため、AI研究の民主化に大きく貢献すると考えられます。

効率的な実装と環境への配慮

LLaMAの訓練では、効率的な実装技術が多く採用されています。特に、xformersライブラリを使用した因果的マルチヘッド注意演算子の効率的な実装により、メモリ使用量と計算量を削減。また、バックワードパス中に再計算される活性化量を減らし、モデルと系列の並列化を使用してメモリ使用量を削減しています。

環境面では、65Bパラメータモデルの訓練は2048台のA100 GPUで約21日かかり、推定炭素排出量は173 tCO2eqとなりました。この値はOPT-175B(137 tCO2eq)やBLOOM-175B(183 tCO2eq)と比較可能ですが、より小さいモデル(例:LLaMA-13B)の排出量は大幅に少なく(23 tCO2eq)、これらのモデルを公開することで将来の炭素排出量削減に貢献することが期待されています。

言語モデル訓練の炭素排出量
各言語モデル訓練における消費電力と炭素排出量の比較

まとめと今後の展望

Meta AIによるLLaMAの公開は、大規模言語モデルの研究と開発の民主化に向けた重要な一歩です。完全にオープンなデータセットのみで訓練された高性能モデルが実現可能であることを示し、特に小型モデル(7B、13B)は個人の研究者でも扱える規模でありながら、はるかに大きなモデルに匹敵する性能を発揮しています。

研究者たちは、モデルをオープンソース化することで、大規模言語モデルの開発を加速し、堅牢性の向上や偏見・有害な内容といった既知の問題への対策を進めることを期待しています。今後は命令チューニングや能力向上のための更なる研究が進められる見込みです。

出典: Meta AI Research - LLaMA: Open and Efficient Foundation Language Models(2023年2月24日)

広告
LLaMA Meta 大規模言語モデル オープンソース 自然言語処理
× 拡大図