Attention Is All You Need
序論
この論文では、従来のリカレントニューラルネットワーク(RNN)や畳み込みニューラルネットワーク(CNN)を排除し、セルフアテンション機構(Self-Attention)のみを使用した新しいネットワークアーキテクチャ「Transformer」を提案します。
背景
リカレントモデルはシーケンスの各位置を順次処理するため、並列化が困難でした。一方、アテンション機構はシーケンス内の全ての位置間の依存関係を捉えることができ、計算効率の向上が期待されます。
モデルアーキテクチャ
エンコーダとデコーダ
- エンコーダ: セルフアテンション機構とポイントワイズの全結合層を持つ。
- デコーダ: エンコーダと同様の構造に加え、エンコーダの出力に対するアテンション機構を持つ。
アテンションメカニズム
- スケールド・ドットプロダクトアテンション: クエリとキーのドット積にスケーリングを施し、ソフトマックス関数で重みを計算。
- マルチヘッドアテンション: 複数のアテンション機構を並行して実行し、異なる表現空間から情報を抽出。
訓練方法
- データ: WMT 2014英独・英仏翻訳データセットを使用。
- ハードウェア: 8つのNVIDIA P100 GPUで訓練。
- 最適化手法: Adamオプティマイザを使用し、学習率を段階的に変化。
結果
- 性能向上: Transformerモデルは、従来の最先端モデルよりも高いBLEUスコアを達成。
- 効率性: 同等の性能を持つ他のモデルに比べて、訓練にかかる時間が大幅に短縮。
結論
Transformerは、リカレントや畳み込み層を使わずに高い性能と効率を実現する新しいアーキテクチャです。この研究は、アテンション機構の可能性を示し、今後のモデル設計に大きな影響を与えるでしょう。