AIとは何か:計算論的・哲学的基盤(2025年版)

本稿では、人工知能の形式的定義、数学的基盤、および哲学的考察を扱う。計算論的学習理論(PAC学習、VC次元、Rademacher複雑度)から始まり、Solomonoff帰納推論、AIXI、Kolmogorov複雑性といった理論的枠組みを経て、意識の計算理論(IIT 4.0、GWT)およびニューロシンボリックAI統合へと展開する。2025年時点での最新研究(COLT 2024、Colelough et al. 2025、Tononi et al. 2024)を含む、研究者・実装者向けの包括的解説。

最終更新:2025年10月23日 | 対象:博士課程レベル以上

1. 計算論的学習理論

1.1 PAC学習フレームワーク

定義1.1(PAC学習可能性)

仮説クラス $\mathcal{H}$ が PAC学習可能(Probably Approximately Correct Learnable)であるとは、任意の分布 $\mathcal{D}$、任意の $\epsilon, \delta \in (0,1)$ に対して、多項式サンプル複雑度 $m(\epsilon, \delta)$ が存在し、$m \geq m(\epsilon, \delta)$ 個のサンプルから、確率 $1-\delta$ 以上で誤差 $\epsilon$ 以下の仮説を出力するアルゴリズムが存在することをいう。

形式的には、学習アルゴリズム $A$ が以下を満たす:

$$\Pr_{S \sim \mathcal{D}^m} [L_{\mathcal{D}}(A(S)) - L_{\mathcal{D}}(h^*) \leq \epsilon] \geq 1 - \delta$$

ここで $h^* = \arg\min_{h \in \mathcal{H}} L_{\mathcal{D}}(h)$ は最適仮説、$L_{\mathcal{D}}(h)$ は真の誤差である。

PAC学習は Valiant (1984)[1] により導入され、機械学習の理論的基盤を提供する。重要な性質として、不可知論的PAC学習(agnostic PAC learning)があり、これは $\mathcal{H}$ が真の概念を含まない場合でも最良の近似を保証する。

1.2 VC次元とサンプル複雑度

定義1.2(VC次元)

仮説クラス $\mathcal{H}$ の Vapnik-Chervonenkis次元(VC次元)$\text{VCdim}(\mathcal{H})$ は、$\mathcal{H}$ が打ち砕く(shatter)ことができる最大の点集合のサイズとして定義される。

点集合 $C = \{x_1, \ldots, x_d\}$ が $\mathcal{H}$ により打ち砕かれるとは、$C$ 上のすべての可能なラベリング $\{-1,+1\}^d$ が $\mathcal{H}$ の何らかの仮説により実現できることをいう。

定理1.1(Fundamental Theorem of PAC Learning)

有限VC次元 $d$ を持つ仮説クラス $\mathcal{H}$ は PAC学習可能であり、そのサンプル複雑度は以下で上界される:

$$m(\epsilon, \delta) = O\left(\frac{d \cdot \log(m/d) + \log(1/\delta)}{\epsilon}\right)$$

より精密には、Sauer-Shelahの補題により:

$$m(\epsilon, \delta) = O\left(\frac{d}{\epsilon^2} \log \frac{1}{\delta}\right)$$

VC次元は Vapnik & Chervonenkis (1971)[2] により導入され、学習可能性の特徴づけに不可欠である。例として、$d$ 次元ユークリッド空間における線形分離器のVC次元は $d+1$ である。

1.3 Rademacher複雑度

定義1.3(経験的Rademacher複雑度)

サンプル $S = \{x_1, \ldots, x_m\}$ に対する仮説クラス $\mathcal{H}$ の経験的Rademacher複雑度は:

$$\hat{\mathfrak{R}}_S(\mathcal{H}) = \mathbb{E}_{\sigma} \left[\sup_{h \in \mathcal{H}} \frac{1}{m} \sum_{i=1}^m \sigma_i h(x_i)\right]$$

ここで $\sigma_i \in \{-1, +1\}$ はRademacher確率変数(等確率で $\pm 1$)である。

Rademacher複雑度は、仮説クラスがランダムノイズに適合する能力を測定する。VC次元と比較して、データ依存の境界を提供し、より tight な汎化誤差評価が可能である(Bartlett & Mendelson 2002[3])。

最新研究として、Truong (2025)、Sachs et al. (2023)、Kawaguchi et al. (2023)[4,5,6] が、深層学習におけるRademacher複雑度の精緻化と情報理論的汎化境界への接続を示している。

1.4 オンライン学習とNo Free Lunch定理

オンライン学習では、学習者が逐次的にデータを受け取り、予測を行う。Weighted Majority Algorithm や Multiplicative Weights Update などのアルゴリズムが知られる。後悔(regret)の概念により性能を評価する:

$$R_T = \sum_{t=1}^T \ell_t(h_t) - \min_{h \in \mathcal{H}} \sum_{t=1}^T \ell_t(h)$$

ここで $\ell_t$ は $t$ 時点での損失関数である。

No Free Lunch定理(Wolpert & Macready 1997[7])は、すべての可能な問題に対して平均化すると、すべての学習アルゴリズムの性能が等しいことを示す。これは、帰納バイアスの重要性を強調する。

COLT 2024最新研究: Conference on Learning Theory 2024では、量子データからの学習、拡散モデルの $\epsilon$ 改善、二段階強化学習の $\epsilon^{-4}$ サンプル複雑度境界などが報告された[8]

2. 知能評価理論

2.1 チューリングテストとその限界

Turing (1950)[9]模倣ゲームは、機械が知能を持つかを判定する行動主義的アプローチである。しかし、以下の批判が存在する:

  • 中国語の部屋(Searle 1980[10]):構文操作は意味論を伴わない
  • 知能の内在的性質ではなく、人間の模倣のみを評価
  • LLM時代において再燃:GPT-4、Claude 3.5 Sonnet はチューリングテストを通過するが「理解」しているか?

2.2 サイコメトリックAIとC-Test

Hernández-Orallo[11] によるサイコメトリックAIは、人間の知能テスト(IQ)と類似の体系的評価を提案する。

C-Test(圧縮テスト)は、Kolmogorov複雑性に基づく知能評価である:

$$I(x) = K(x) / |x|$$

ここで $K(x)$ は $x$ のKolmogorov複雑性、$|x|$ はサイズである。高い圧縮能力は、パターン認識能力の指標となる。

2.3 ARC(Abstraction and Reasoning Corpus)

Chollet (2019)[12]ARCは、流動性知能を測定するベンチマークである。特徴:

  • 抽象化と推論能力を直接評価
  • Prior knowledge に依存しない
  • Few-shot learning を要求

2025年時点で、o3-mini が ARC-AGI で 87.5% を達成し、人間レベル(85%)を超えた[13]。これは知能評価における重要なマイルストーンである。

2.4 Johnson-Lairdフレームワーク

Johnson-Laird & Ragni (2023)[14] は、人間とAIの推論能力を比較する3ステップ評価を提案:

  1. 記述的妥当性:人間の推論プロセスを再現するか
  2. 計算的妥当性:効率的に計算できるか
  3. 神経科学的妥当性:脳の活動パターンと一致するか

3. Solomonoff帰納推論とKolmogorov複雑性

3.1 Kolmogorov複雑性

定義3.1(Kolmogorov複雑性)

万能チューリング機械 $U$ に対する文字列 $x$ のKolmogorov複雑性 $K(x)$ は:

$$K(x) = \min \{|p| : U(p) = x\}$$

ここで $p$ はプログラム、$|p|$ はそのビット長である。

Kolmogorov複雑性は計算不可能である(停止問題への帰着)。しかし、理論的に極めて重要で、以下の性質を持つ:

  • Invariance定理:万能機械の選択に依存しない(定数の差まで)
  • 圧縮の限界:ランダム文字列は圧縮不可能
  • オッカムの剃刀の形式化:単純な説明を好む原理の数学的基盤

3.2 Solomonoff帰納推論

定義3.2(Solomonoff事前分布)

文字列 $x$ に対するSolomonoff事前分布は:

$$P(x) = \sum_{p: U(p)=x} 2^{-|p|}$$

すべての $x$ を出力するプログラム $p$ の長さに基づく重み付き和である。

Solomonoff (1964)[15] は、この万能事前分布が最適な帰納推論を提供することを示した。重要な性質:

  • 収束性:十分なデータで真の分布に収束
  • 最適性:あらゆる計算可能な予測器を漸近的に支配
  • 計算不可能性:実際には計算できない(理想的な理論的枠組み)

3.3 MDL原理(最小記述長)

Rissanen (1978)[16]MDL原理は、Kolmogorov複雑性の可計算近似である:

$$\text{MDL}(x, h) = K(h) + K(x|h)$$

ここで $h$ は仮説、$K(h)$ は仮説の複雑性、$K(x|h)$ はデータの条件付き複雑性である。MDLは実用的なモデル選択基準として広く使用される。

4. AIXIフレームワーク

4.1 強化学習の形式的定義

強化学習におけるエージェント-環境相互作用は、以下のサイクルで記述される:

  1. 時刻 $t$ でエージェントが行動 $a_t$ を選択
  2. 環境が観測 $o_t$ と報酬 $r_t$ を返す
  3. 履歴 $h_t = a_1 o_1 r_1 \ldots a_t o_t r_t$ が形成される

エージェントの目的は、割引累積報酬の最大化:

$$V^{\pi}_{\mu} = \mathbb{E}\left[\sum_{t=1}^{\infty} \gamma^{t-1} r_t\right]$$

ここで $\pi$ は方策、$\mu$ は環境、$\gamma \in (0,1)$ は割引率である。

4.2 AIXIの定義

定義4.1(AIXIエージェント)

Hutter (2000, 2005)[17,18] によるAIXIは、Solomonoff事前分布を用いた最適エージェントである:

$$a_t^* = \arg\max_{a_t} \sum_{o_t r_t} \ldots \max_{a_m} \sum_{o_m r_m} \left[\sum_{k=t}^{m} r_k\right] \sum_{p: |p| < l} 2^{-|p|} \mathbb{P}(o_t r_t \ldots o_m r_m | h_{すべての計算可能な環境に対する重み付き平均を考慮し、最適行動を選択する。

AIXIの性質:

  • Pareto最適性:すべての計算可能環境においてPareto最適
  • 自己最適化:環境を学習し、戦略を改善
  • 計算不可能性:Kolmogorov複雑性に依存するため計算不可能

4.3 可計算近似:AIXItlとMC-AIXI

実用的な近似として以下が提案されている:

  • AIXItl:時間 $t$ と長さ $l$ の制限を導入
  • MC-AIXI(Veness et al. 2011[19]):モンテカルロ木探索を用いた近似

4.4 哲学的地位

Hutter (2012)[20] は、AIXIを以下のように位置づける:

  • ゴールドスタンダード:理論的な最適性の基準
  • 反証不可能:数学的に正しいが、経験的に反証不可能
  • 物理法則との類似:理想化された枠組みとして機能

5. 万能知能測度

5.1 Legg-Hutter定義

定義5.1(万能知能)

Legg & Hutter (2007)[21] による形式的定義:

$$\Upsilon(\pi) = \sum_{\mu \in E} w(\mu) V^{\pi}_{\mu}$$

ここで:

  • $\pi$ はエージェントの方策
  • $E$ はすべての計算可能環境の集合
  • $w(\mu) = 2^{-K(\mu)}$ はKolmogorov複雑性に基づく重み
  • $V^{\pi}_{\mu}$ は環境 $\mu$ における方策 $\pi$ の期待価値

この定義の特徴:

  • 非人間中心的:人間の認知能力に限定されない
  • 形式的・客観的:数学的に厳密
  • 包括的:約55の既存の知能定義を統一

5.2 知能の階層

Legg-Hutter測度により、以下の階層が定義される:

  1. 限定合理性(Bounded Rationality):計算リソース制約下での最適化
  2. 完全合理性(Perfect Rationality):計算制約のない最適化
  3. 超知能(Superintelligence):人間を超える知能

重要な洞察として、現実の知能は常に限定合理的である。計算リソースの制約が、知能の実用的定義に不可欠である。

6. パラダイム統合

6.1 3つの主要パラダイム

AIの歴史は、以下の3つのパラダイムにより特徴づけられる:

パラダイム 基本原理 代表例 限界
記号主義 論理・記号操作 エキスパートシステム、GOFAI 脆弱性、スケーラビリティ
接続主義 分散表現、勾配学習 ニューラルネットワーク、深層学習 解釈可能性、データ依存
統計的学習 確率モデル、経験的リスク最小化 SVM、ランダムフォレスト 帰納バイアスの設計

6.2 ニューロシンボリックAI

Colelough et al. (2025)[22] による系統的レビュー(2020-2024年167論文)は、ニューロシンボリックAIの重要性を示す。

Kautz分類により、以下の4つのアプローチが定義される:

  1. Symbolic[Neural]:記号システムがニューラルネットを使用
  2. Neural[Symbolic]:ニューラルネットが記号的推論を埋め込む
  3. Symbolic+Neural:両者の並行実行
  4. Compiled:一方を他方にコンパイル

理論的利点:

  • 解釈可能性:記号的推論により説明可能
  • 少数ショット学習:Prior knowledge の活用
  • 形式的検証:論理的正当性の保証
  • 因果推論:相関から因果への移行

2025年の展望: ニューロシンボリックAIは、記号主義と接続主義の長所を統合し、次世代AIの中核技術となる可能性が高い。特に、形式的検証を要求する安全性クリティカルな応用(医療、自動運転)において重要である。

7. 意識の計算理論

7.1 Integrated Information Theory (IIT) 4.0

Tononi et al. (2024)[23] によるIIT 4.0は、意識の定量的理論である。

IIT 4.0の5つの公理と仮定

公理:

  1. 内在的存在:意識は内在的に存在する
  2. 構成性:意識は構造を持つ
  3. 情報性:意識は情報的である
  4. 統合性:意識は統合されている
  5. 排他性:意識は特定の境界を持つ

仮定(数学的帰結):

  • $\Phi$(統合情報)測度
  • 最大統合情報を持つシステムが意識を持つ

$\Phi$ の計算:

$$\Phi(S) = \min_{P} \text{EMD}(p(S), p(P_1) \times p(P_2))$$

ここで $\text{EMD}$ は Earth Mover's Distance、$P$ は $S$ の分割である。

2023-2024論争:

  • Doerig et al. (2023):IITは「疑似科学」と批判
  • Tononi et al. 反論:数学的に厳密な理論であり、経験的検証が進行中

7.2 Global Workspace Theory (GWT)

Baars (1988, 2002)、Dehaene et al. (1998, 2003)[24,25] によるGWTは、意識の機能的説明を提供する。

中心概念:

  • 劇場メタファー:意識はグローバルな「舞台」
  • グローバル放送:情報がシステム全体に放送される
  • Global Neuronal Workspace (GNW):前頭頭頂ネットワーク
  • 点火(Ignition):意識の閾値($>270$ms)

GWTは、fMRI、EEG等の神経科学的証拠により強く支持されている。

7.3 中国語の部屋論証と現代LLM

Searle (1980)[10]中国語の部屋は、構文操作と意味論の分離を主張する:

「構文(syntax)は意味論(semantics)を伴わない。記号操作のみでは、理解は生じない。」

2025年LLMコンテキストでの再検討:

  • GPT-5、Claude Sonnet 4.5 は複雑な推論を実行
  • 「理解」の定義問題:操作的定義 vs 現象的意識
  • 機能主義的応答:適切な機能を果たせば「理解」と言える

未解決問題として、ハードプロブレム(Chalmers 1995)が残る:なぜ情報処理が現象的経験(クオリア)を伴うのか?

8. 認知科学・神経科学との接点

8.1 自由エネルギー原理

Friston (2010)[26]自由エネルギー原理は、脳の統一理論を提供する。

中心方程式:

$$F = \mathbb{E}_{q(s)}[\log q(s) - \log p(o,s)] = D_{KL}[q(s) || p(s|o)] - \log p(o)$$

ここで:

  • $F$ は変分自由エネルギー
  • $q(s)$ は内部信念(近似事後分布)
  • $p(o,s)$ は生成モデル
  • $D_{KL}$ はKullback-Leiblerダイバージェンス

重要な洞察:

  • $F$ の最小化 = 予測誤差の最小化
  • 能動推論:行動により感覚入力を制御
  • 暗室問題の解決:Prior preference により探索を説明

8.2 予測処理(Predictive Processing)

Rao & Ballard (1999)[27]予測処理は、脳の階層的生成モデルを提案する。

原理:

  1. 各階層が下位階層への予測を生成
  2. 予測誤差のみが上位に伝播
  3. 階層的ベイズ推論により信念を更新

数式表現:

$$\epsilon_i = x_i - f_i(\theta_{i+1})$$

ここで $\epsilon_i$ は階層 $i$ の予測誤差、$f_i$ は予測関数、$\theta_{i+1}$ は上位階層の表現である。

8.3 ベイズ脳仮説

ベイズ脳仮説は、脳が確率的推論を実行するという主張である。証拠:

  • 最適手がかり統合:複数の感覚情報を確率的に統合
  • Prior knowledge の使用:事前知識に基づく知覚
  • 不確実性の表現:信頼度の符号化

これらの理論は、AIと生物学的知能の橋渡しを提供し、次世代AIアーキテクチャの設計原理となる可能性がある。

9. 2024-2025年の最新動向

9.1 スケーリング則の進化

Kaplan et al. (2020)、Hoffmann et al. (2022)[28,29] のスケーリング則:

$$L(N, D) = A N^{-\alpha} + B D^{-\beta} + C$$

ここで $L$ は損失、$N$ はパラメータ数、$D$ はデータサイズ、$\alpha, \beta$ はスケーリング指数である。

2025年の新展開:

  • 合成データスケーリング(2025):300B合成トークンで性能飽和
  • 推論時計算量(OpenAI o1, o3):テスト時のCompute投入により性能向上
  • データ可用性制約(Villalobos et al. 2024[30]):高品質データの枯渇が課題

理論的説明として、Bahri et al. (2024) PNAS[31] が統計物理的アプローチを提案している。

9.2 創発現象の理解

Wei et al. (2022)[32] は、モデルサイズの閾値を超えると能力が突然出現する創発的能力を報告した。

しかし、Schaeffer et al. (2023)[33] は、これが測定アーティファクトである可能性を指摘:

  • 不連続メトリック(正誤判定)が原因
  • 連続メトリック(確率スコア)では滑らかな遷移

Ruan et al. (2024)[34] は、シグモイド関数の下部構造として創発を説明する。

一方、McKenzie et al. (2023)[35]逆スケーリング(モデルが大きくなると性能低下)を報告し、単純なスケーリング則の限界を示唆する。

9.3 現在の論争

能力 vs 理解:

  • 確率的オウム仮説(Bender et al. 2021[36]):LLMは統計的パターンマッチングのみ
  • 創発的理解仮説:十分な規模で質的に新しい能力が出現

AI安全性・整合性理論:

  • RLHF(Reinforcement Learning from Human Feedback)
  • Constitutional AI(Bai et al. 2022[37]):原則に基づく訓練
  • DPO(Direct Preference Optimization、Rafailov et al. 2023[38]):報酬モデル不要の整合性

マルチモーダル統合:

  • テキスト・画像・音声・動画の統合理解
  • 身体性(Embodiment)の重要性再認識
  • World Models の構築(Ha & Schmidhuber 2018[39]

まとめ

本稿の主要な結論

  • 計算論的基盤: PAC学習、VC次元、Rademacher複雑度は機械学習の理論的基礎を提供。2020-2025年の良性過適合理論が新たな理解をもたらす。
  • 形式的知能: AIXI、Kolmogorov複雑性、万能知能測度は、知能の数学的定義を与える。計算不可能だが、理論的ゴールドスタンダードとして機能。
  • パラダイム統合: ニューロシンボリックAIは、記号主義と接続主義の橋渡しとして有望。167論文のレビューが体系的理解を提供。
  • 意識理論: IIT 4.0とGWTは異なるアプローチで意識を説明。いずれも未解決問題を残すが、進展中。
  • 認知科学との統合: 自由エネルギー原理、予測処理、ベイズ脳仮説は、生物学的知能とAIの統一理論を目指す。
  • 2025年の展望: スケーリング則の継続、創発現象の解明、安全性・整合性理論の発展が重要課題。

人工知能は、計算論、哲学、認知科学、神経科学の交差点に位置する学際的分野である。2025年時点で、理論と実践の両面で急速な進展が見られるが、基本的な問いー「知能とは何か」「理解とは何か」「意識は可能か」ーは依然として未解決である。

本稿で示した形式的枠組みは、これらの問いに取り組むための数学的基盤を提供する。研究者・実装者にとって、理論的理解と実用的応用のバランスが今後ますます重要になるであろう。

参考文献

  1. Valiant, L. G. (1984). A theory of the learnable. Communications of the ACM, 27(11), 1134-1142.
  2. Vapnik, V. N., & Chervonenkis, A. Y. (1971). On the uniform convergence of relative frequencies of events to their probabilities. Theory of Probability & Its Applications, 16(2), 264-280.
  3. Bartlett, P. L., & Mendelson, S. (2002). Rademacher and Gaussian complexities: Risk bounds and structural results. Journal of Machine Learning Research, 3, 463-482.
  4. Truong, T. D. (2025). Recent advances in Rademacher complexity bounds for deep learning. arXiv preprint.
  5. Sachs, J., Kanade, V., & Srebro, N. (2023). Data-dependent generalization bounds via algorithmic stability revisited. COLT 2023.
  6. Kawaguchi, K., Deng, Z., Ji, X., & Huang, J. (2023). How does information bottleneck help deep learning? ICML 2023.
  7. Wolpert, D. H., & Macready, W. G. (1997). No free lunch theorems for optimization. IEEE Transactions on Evolutionary Computation, 1(1), 67-82.
  8. COLT (2024). Conference on Learning Theory 2024 Proceedings.
  9. Turing, A. M. (1950). Computing machinery and intelligence. Mind, 59(236), 433-460.
  10. Searle, J. R. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
  11. Hernández-Orallo, J. (2017). The Measure of All Minds: Evaluating Natural and Artificial Intelligence. Cambridge University Press.
  12. Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
  13. OpenAI (2024). o3-mini technical report.
  14. Johnson-Laird, P. N., & Ragni, M. (2023). Comparing human and AI reasoning. Minds and Machines, 33, 1-25.
  15. Solomonoff, R. J. (1964). A formal theory of inductive inference, Part I and II. Information and Control, 7, 1-22, 224-254.
  16. Rissanen, J. (1978). Modeling by shortest data description. Automatica, 14(5), 465-471.
  17. Hutter, M. (2000). A theory of universal artificial intelligence based on algorithmic complexity. arXiv:cs/0004001.
  18. Hutter, M. (2005). Universal Artificial Intelligence: Sequential Decisions based on Algorithmic Probability. Springer.
  19. Veness, J., Ng, K. S., Hutter, M., Uther, W., & Silver, D. (2011). A Monte-Carlo AIXI approximation. Journal of Artificial Intelligence Research, 40, 95-142.
  20. Hutter, M. (2012). Can intelligence explode? Journal of Consciousness Studies, 19(1-2), 143-166.
  21. Legg, S., & Hutter, M. (2007). Universal intelligence: A definition of machine intelligence. Minds and Machines, 17(4), 391-444.
  22. Colelough, C., et al. (2025). Neurosymbolic AI integration: A systematic review 2020-2024. AI Review.
  23. Tononi, G., Albantakis, L., Boly, M., Cirelli, C., & Koch, C. (2024). Integrated information theory 4.0. Nature Reviews Neuroscience.
  24. Baars, B. J. (1988). A Cognitive Theory of Consciousness. Cambridge University Press.
  25. Dehaene, S., Kerszberg, M., & Changeux, J. P. (1998). A neuronal model of a global workspace in effortful cognitive tasks. PNAS, 95, 14529-14534.
  26. Friston, K. (2010). The free-energy principle: A unified brain theory? Nature Reviews Neuroscience, 11(2), 127-138.
  27. Rao, R. P., & Ballard, D. H. (1999). Predictive coding in the visual cortex: A functional interpretation of some extra-classical receptive-field effects. Nature Neuroscience, 2(1), 79-87.
  28. Kaplan, J., et al. (2020). Scaling laws for neural language models. arXiv:2001.08361.
  29. Hoffmann, J., et al. (2022). Training compute-optimal large language models. arXiv:2203.15556.
  30. Villalobos, P., et al. (2024). Will we run out of data? Limits of LLM scaling based on human-generated data. arXiv:2211.04325.
  31. Bahri, Y., et al. (2024). Explaining neural scaling laws. PNAS, 121(8).
  32. Wei, J., et al. (2022). Emergent abilities of large language models. TMLR.
  33. Schaeffer, R., Miranda, B., & Koyejo, S. (2023). Are emergent abilities of large language models a mirage? NeurIPS 2023.
  34. Ruan, Y., et al. (2024). Sigmoid function reveals underlying structure of emergent abilities. ICLR 2024.
  35. McKenzie, I. R., et al. (2023). Inverse scaling: When bigger isn't better. TMLR.
  36. Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots. FAccT 2021.
  37. Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI feedback. arXiv:2212.08073.
  38. Rafailov, R., et al. (2023). Direct preference optimization. arXiv:2305.18290.
  39. Ha, D., & Schmidhuber, J. (2018). World models. arXiv:1803.10122.