Transformer 内部構造

概要

Transformerは2017年に発表された論文「"Attention Is All You Need"」に掲載されたニューラルネットワークの新しいモデルです。発表されて以来、革新的な内部機構が注目され、多くの自然言語処理タスクに利用されてきました。

近年登場したChatgptなどのLLMも、Transformerを使用した言語処理技術の一つです。さらに現在では、画像、音楽等の認識や医療分野にも使用されている優れた解析モデルです。 AIを実用化段階に躍進させたモデルであるTransformerを、その内部構造に併せて解説していきます。

Transformerの内部構造

Transformerは図のような内部構造を持っています。図のTransformerは左部のEncoderと右部のDecoderという2つの内部構造からなります。類似した内部構造をN層持ち、入力を処理していきます。論文で使用されているタスクは翻訳タスクで、N=6として学習されています。本記事では英語から日本語に翻訳するタスクについて、これらの入力と出力を見ていきましょう。余談ですが、それぞれのChatgptなどのLLMに搭載されるTransformerは一般的にdecoderのみで運用されています。

Encoderの入出力と機能

日本語から英語に翻訳する翻訳タスクにおけるTransformerのEncoderの入出力と機能について解説していきます。encoderに対する入力は、日本語の文です。文は配列として単語ごとに分けられて入力されます。

データの埋め込み処理

入力された単語の配列は、Input Embeddingによって1単語あたり約1000次元の埋め込みベクトルにマッピングされます。論文のTransformerはEmbedding層の重みは固定されていましたが、近年のTransformerでは学習を進めていくと関連するベクトルに対しより近い意味を持つようにマッピングされるようになります。このような学習プロセスは基本的なニューラルネットワークと同じです。

位置情報付加

埋め込みベクトルにマッピングされた配列は、Positional Encoding処理を与えられます。後述するself attention機構では単語を並列処理するため、単語の順序関係が失われてしまいます。 Positional Encodingではsin波とcos波を使用した位置エンコーディングを埋め込みベクトルに加算することで、単語の位置関係を埋め込みベクトルに記憶させます。これでTransformerの内部機構に渡せる形に自然言語を処理できたことになります。

Multi Head Attention

それでは内部機構の説明に移ります。内部機構ではMulti Head Attention機構を使用します。この機構がTransformerの要となる機能ですが、詳細に解説するとかなり長くなってしまうので、ここでは簡潔にして詳細は別の記事にまとめるようにします。

Multi Head Attention機構の特徴は、入力がQuery（Q:クエリ）, Key（K:キー）, Value（V:バリュー）の3つに分かれていることです。先ほどの埋め込みベクトルから、Query, Key, Valueの3値を３つの学習可能な重み行列によって作成します。

Q=XW_Q

K=XW_K

V=XW_V

ここで、Queryは「他のどのトークンにどのくらい関連があるか」、Keyは「トークンの情報」、Valueは「MHAの最終的な出力」になります。MHAの内部ではクエリとキーを使用して最終的にValueを出力します。 Valueはその単語の情報や周辺単語との関連を数学的に示しているものだと解釈してください。

残差接続＆正規化

出力されたValueはAdd&Norm層に入力されます。Add層ではMHA機構の入力と出力のvalueを加算します。この操作を残差接続といいます。残差接続を行うことで、元の入力に基づいた情報を保持することが出来、安定的に学習を進めることが出来ます。その後、Norm層を用いて配列を正規化して各ベクトルの長さが1になるようにします。正規化することで他のニューラルネットワークと同様、過学習を防ぎやすくなります。

Feed Forward層

正規化されたトークンはFeed forward層で非線形変換を行います。

FFN(x) = max(0, xW_1 + b_1)W_2 + b_2

具体的には、重み行列とバイアスを用いて線形変換し、その後、ReLU関数を用いて非線形返還を行い、別の重み行列とバイアスを使い、再び値を更新します。TransformerではMulti Head Attention層が注目されていますが、多くのニューロンはこのfeed forward層のMLP内部に存在します。

これはlinear層を通したあと、ReLU層を通し、再びlinear層を通すということです。

重み行列とバイアスは学習を進めるごとに定義された損失関数により最適化されていきます。その後、もう一度Add&Norm層でFeed forward層の処理前と処理後を足し合わせた後正規化を行い、正規化された出力はdecoderに渡されます。

Decoderの入出力と機能

Decoderの入出力と機能を説明していきます。Decoderは最終的にEncoderに入力された文の翻訳文を出力することが求められます。しかし一度にすべての単語を翻訳するということは行いません Decoderの本質的な機能は「次の単語の予測」です。Encoderの入力は単語の行列だったのに対し、 Decoderは1単語ずつ入力していきます。<BOS>最初のステップの入力は<BOS>という特殊文字であり、この文字は文頭を表します。 <start>を入力として、Decoderは次に来る単語を予測し、出力します。出力された単語は再びDecoderに入力され、更に次に来る文字を確率的に計算します。この繰り返しによって翻訳文を完成させます。 Decoderの内部層はEncoderとほぼ同じです。Encoderで説明した層の説明は省略します。

Decoderの入出力の例

例えば、Encoderに「I have an apple」という文章を入力します。Encoderによって数値化されたデータはDecoder 内のMulti Head Attention機構のQueryとKeyとして付加されます。Decoderは付加された情報をDecoderの入力とともに処理し、<BOS>の次に来る単語を確率的に求め、最も確率の高い単語を出力します。

Masked Multi Head Attention

Masked Multi Head Attention層では未来の情報の要素を-∞と表記する（マスクする）ことで、未来の情報の要素を参照させない操作を行っています。マスクを行うと、まだ生成されていない要素を情報量がない要素として扱うことが出来ます。この操作も別の記事で詳しく解説します。
※埋め込み配列の要素は後の0を使って未来の情報をマスクすることはできません。

Linear, softmax

Linear層とsoftmax層は一般的に他のニューラルネットワークで使用される層と同じです。 Linear層は重み行列とバイアスを使ってベクトルを線形変換し、softmax層はベクトルから正規化された確率分布を生成します。

まとめ

以上がTransformerの内部構造と学習されたTransformerがどのように出力を行うかの説明です。各層を簡単にまとめます。

Embedding :入力された文字を数値のベクトルに変換
Positional Encoding :位置情報をベクトルに付加
Multi Head Attention : 入力に他単語との関係性を付加して出力
Add :前の層の入力と出力の和を出力
Norm :各要素の長さが1になるように正規化
Linear:入力を線形変換
Feed Forward :入力を線形変換し、負の値を0に補正した後、線形変換
Softmax :ベクトルから正規化された確率分布を出力

上記の層の内、デフォルトのTransformerで学習を行う層はMulti Head Attention, Linear, Feed forward層です。近年のモデルではEmbedding, Positional_Encoding層も学習を行うことがあります。

Transformer: 内部構造と文の生成

記事のまとめ

概要