内容情報
自然言語処理分野におけるブレイクスルーとなったTransformerをコンピュータビジョンに応用したモデルがVision Transformer(ViT)です。さまざまなコンピュータビジョンのタスクにおいて、ディープラーニングではスタンダードとなっているRNN、CNN、および既存手法を用いた処理精度を上回ることが確認されています。
本書は注目のViTの入門書です。Transformerの成り立ちからはじめ、その理論と実装を解説していきます。今後のViTの活用が期待される応用タスク、ViTから派生したモデルを紹介したあと、TransoformerとViTを分析し、その謎を解明していきます。今後も普及が期待されるViTを盛りだくさんでお届けします。
目次
1章 TransformerからVision Transformerへの進化
2章 Vision Transformerの基礎と実装
3章 実験と可視化によるVision Transformerの探求
4章 コンピュータビジョンへの応用
5章 Vision and Languageへの応用
6章 Vision Transformerの派生手法
7章 Transformerの謎を読み解く
8章 Vision Transformerの謎を読み解く