近年, 大量のデータで学習した大規模モデルであるCLIP,BERT,GPT-3等が登場し, 大きなパラダイムシフトを起こしています. これらは, 2021年にBommasaniらのスタンフォード大学のワーキンググループによって, 基盤モデル foundation modelと命名されました.Bommasaniらが公表している「On the Opportunities and Risks of Foundation Models」という論文に, 基盤モデル関して以下のような記載があります.

A foundation model is any model that is trained on broad data (generally using self-supervision at scale) that can be adapted (e.g., fine-tuned) to a wide range of downstream tasks

つまり, 基盤モデルとは 「大量で多様なデータを用いて訓練され, 様々なタスクに適応（ファインチューニングなど）できる大規模モデル」 のことです.

▷ 基盤モデルが台頭した訳

　基盤モデルは, 多様かつ大規模なデータで学習した大規模モデルです. つまり所望な基盤モデルがありさえすれば, fine-tuneして転移学習したり, ゼロショットでそのまま推論させることで, 様々なタスクに活用できます.

基盤モデルは多様かつ大規模なデータで学習した大規模モデルです. 大規模なデータで学習するために, 表現力が高く, 幅広い応用が可能であり, 様々なドメインで学習した基盤モデルを構築すれば, 基盤モデル１つで多様なドメインを網羅することができます. つまり, 従来の「単一タスク, 単一モデル」から「多様なタスク, 汎化モデル（基盤モデル）」と活用することが可能となり, タスク毎にモデルを設計する必要なくなります.

では, 何故上述のような事が可能となったのでしょうか・・・？

それには以下のような理由があります.

Transfer learning is what makes foundation models possible, but scale is what makes them powerful. Scale required three ingredients: (i) improvements in computer hardware — e.g., GPU throughput and memory have increased 10× over the last four years (§4.5: systems); (ii) the development of the Transformer model architecture [Vaswani et al. 2017] that leverages the parallelism of the hardware to train much more expressive models than before (§4.1: modeling); and (iii) the availability of much more training data.

引用「On the Opportunities and Risks of Foundation Models」

つまり, 上記等を要約しますと, 基盤モデルが台頭した訳は以下3点が挙げられます.

ハードウェア性能・能力とソフトウェアの最適化
Transformerモデルの発明
大規模データの利活用

Transformerとはエンコーダ/デコーダ構造のモデル.attentionを積極的に活用したモデルです.

また上記に加え, 基盤モデルの性能として, スケーリング則と呼ばれるものが注目されています.

スケーリング則を説明するにあたり, 以下３つの変数が重要になってきます.

訓練ステップ
データセットサイズ
パラメータ数

現状, これら３変数を大きくすればするほどに基盤モデルの性能が向上することが示唆されています.つまり, データ数とモデルを大規模にすればするほど, 性能が向上しています.

NVIDIA Technical Blogより引用

以上から, 多様かつ大規模なデータで学習した大規模モデルである基盤モデルは, 大規模なデータで学習するために, 表現力が高く, 幅広い応用が可能となっている. また, データを大規模にすればするほど, 性能が向上することが示唆されている. AI開発は「単一タスク- 専用のモデル開発」から「基盤モデルを汎化させる」開発方法に移行しつつあります.