2017年に登場したTransformerは深層学習に革命をもたらしましたが、その二次的な計算量が長いシーケンス処理のボトルネックとなっています。こうした課題を解決する次世代アーキテクチャとして、State Space Model(SSM)、特にMambaが注目を集めています。Transformerを完全に置き換えるのか、それとも共存するのか。個人的な関心から最新の研究動向を調査・考察してみました。同じように次世代アーキテクチャに関心をお持ちの方の参考になれば幸いです。
続きを読む
カテゴリー: 4_アーキテクチャ_Transformer
Transformerアーキテクチャ