AI・機械学習

LLMの仕組み

「ChatGPTってどういう仕組みなの？」と聞かれて、うまく答えられない。
ひとことで言うと ──

LLM = 膨大な文章を読んで「次の言葉」を予測するAI

大量のテキストから言葉の使い方を学び、人間のような文章を生み出す

あなたの質問

「明日の会議の議事録を書いて」

入力

LLM

文脈を理解し、次の言葉を予測

超高速の「穴埋めの天才」

出力

生成された文章

自然で的確な回答が届く

あなたも毎日触れている

ChatGPT

翻訳アプリ

コード補完

AI検索

文章要約・校正

ここから先で、この仕組みをひとつずつ丁寧に解説していきます。

そもそもLLMって何？

LLMは Large Language Model（ラージ・ランゲージ・モデル）の略で、日本語では「大規模言語モデル」と訳します。名前に含まれる3つの単語がそのまま特徴を表しています。

名前に秘密がある ── 3つの単語を分解

Large（大規模）

数千億〜数兆個の「パラメータ」（調整つまみ）を持つ。人間の脳の神経接続のように、膨大な情報の繋がりを記憶している

Language（言語）

扱うのは「言葉」。人間が書いた文章を大量に読み込んで、言葉の使い方・つながり・ニュアンスを学習している

Model（モデル）

数学的な計算の仕組み。入力されたテキストを受け取り、規則に従って処理し、結果を出力する「装置」のようなもの

つまりLLMとは、膨大な量の文章データを読み込んで、「言葉の使い方」を身につけたAIです。では、「言葉の使い方を身につける」とは、具体的にどういうことでしょうか？

実は、LLMの基本動作は驚くほどシンプルです。やっていることはたった一つ ── 「次に来る言葉を予測する」。これだけです。

「穴埋めテストの天才」で考えるLLM

LLMは文の続きを予測し続ける。たった一つの動作を超高速で繰り返している。

問題文

「今日は天気が ??? ので、公園に ???」

LLMの頭の中（1つめの空欄）

良い ── 72%

悪い ── 15%

穏やかな ── 8%

その他 ── 5%

最も確率が高い「良い」を選択

LLMの頭の中（2つめの空欄）

行きましょう ── 68%

出かけたい ── 18%

散歩しよう ── 10%

その他 ── 4%

「天気が良い＋公園」の文脈で「行きましょう」を選択

完成

「今日は天気が良いので、公園に行きましょう」

この「予測 → 選択」を1秒間に数百回繰り返すことで、長い文章が生まれる

では、LLMが実際に使われている画面を見てみましょう。あなたもすでに見たことがあるはずです。

AIチャット

東京の明日の天気を教えて

東京の明日の天気は晴れ時々くもり、最高気温は24°Cの予報です。午後から雲が増える見込みですが、傘は必要なさそうです。

メッセージを入力...

このチャット画面の裏側で、LLMが「次に来る単語」を猛烈な速度で予測し続けています。

「なんだ、穴埋めをしているだけなのか」と拍子抜けするかもしれません。しかし、ここがポイントです。この単純な予測を、数兆語分の知識を使って、文脈を深く理解しながら行うからこそ、まるで人間が書いたかのような自然な文章が生まれるのです。

ここで言う「パラメータ」とは、LLMが学習を通じて調整する数値のことです。たとえるなら、巨大なミキサー卓（音楽のミキシングコンソール）についた無数のつまみ。1つ1つのつまみが「この単語の後にはこの単語が来やすい」といった知識を少しずつ記憶しています。つまみの数が多いほど、より繊細で正確な言語理解ができるようになります。

1,750億

GPT-3のパラメータ数

出典: Brown et al., 2020

数兆語

学習に使われた
テキストデータの量

100万+

最新LLMが一度に
処理できる文字数

GPT-5, Claude, Geminiの最大コンテキスト長（2026年時点）

ここがポイント

LLMの本質は「次の単語の予測」です。この単純な原理を、桁違いの規模（パラメータ数・データ量・計算量）で実行することで、要約・翻訳・プログラミング・質問応答まで、驚くほど幅広い言語タスクをこなせるようになりました。

LLMの中で何が起きているのか

「次の言葉を予測している」ということはわかりました。では、LLMの内部では、具体的にどんな処理が行われているのでしょうか。テキストが入力されてから出力されるまでを、4つのステップに分解して見てみましょう。

入力から出力までの4ステップ

トークン化

文章を「トークン」
という小さな単位に
分割する

ベクトル化

各トークンを
数値の列（ベクトル）
に変換する

Transformer処理

Attention機構で
単語同士の関係を
深く理解する

次の言葉を出力

最も自然な「次の
トークン」を選んで
文章を組み立てる

それぞれのステップをもう少し詳しく見てみましょう。

1 トークン化 ── 文章をパーツに分解する

コンピュータは「文章」をそのまま理解できません。まず、文章を「トークン」と呼ばれる小さな単位に分割します。トークンは単語そのものではなく、単語より少し小さいパーツです。英語の場合、だいたい1トークン = 4文字程度。日本語では1文字が1トークンになることもあります。

例: 「私はAIについて学んでいます」

私は AI について学んでいます

実際のトークン分割はモデルによって異なります。上記は概念的な例です。

2 ベクトル化 ── 言葉を数値に変換する

コンピュータが処理できるのは数値だけです。そこで、各トークンを「ベクトル」（数値の列）に変換します。この操作を「埋め込み（Embedding）」と呼びます。たとえるなら、言葉を「座標」に変換するようなものです。意味が近い言葉は座標上でも近い位置に配置されます。

言葉の座標イメージ

「犬」

0.82 -0.15 0.63 ...

「猫」

0.79 -0.12 0.58 ...

「犬」と「猫」は意味が近いので、数値（座標）も似た値になる。実際のベクトルは数千〜数万次元。

3 Transformer処理 ── 文脈を理解する頭脳

ここがLLMの心臓部です。Transformer（トランスフォーマー）は2017年にGoogleの研究者が発表したAIの設計図（アーキテクチャ）で、現在のほぼすべてのLLMがこの設計を採用しています。その中核にあるのが「Attention（アテンション = 注意機構）」と呼ばれる仕組みです。

Attentionが何をするかを、日常のたとえで説明します。あなたが「お金を銀行に預けた」という文を読むとき、「銀行」が「金融機関」のことだと瞬時にわかりますよね。しかし「川の土手に座った」と書いてあれば、「川岸」を想像するはずです。あなたは無意識に周囲の単語を見て、言葉の意味を判断しています。Attentionはまさにこれをやっています。

出典: Vaswani et al., "Attention Is All You Need", 2017

Attention の動き ── 各単語が他の単語をどれだけ「注目」するか

お金を銀行に預けた

「銀行」は「お金」と「預けた」に強く注目

お金 ── 注目度: 高を ── 注目度: 低預けた ── 注目度: 高

結論: この「銀行」は「金融機関」だと判断できる

4 次の言葉を出力 ── 最も自然な続きを選ぶ

Transformer層を何十回も通過して文脈を深く理解したら、最後に「次に来る最も自然なトークン（言葉のパーツ）は何か？」を計算します。語彙全体（数万〜数十万語）の中から確率を計算し、最も適切なトークンを1つ選びます。そして、その選んだトークンを文末に追加して、再びステップ1から繰り返す。この超高速なループ（毎秒数百トークン）によって、長い文章が生まれます。

ちょっと補足: マルチヘッドAttention

実際のLLMでは、1回の処理で複数のAttention（注意の視点）を同時に走らせます。これを「マルチヘッドAttention」と呼びます。たとえるなら、1人で本を読むのではなく、96人のチームが同じ文章を同時に読んで「文法の観点」「意味の観点」「トピックの観点」など、それぞれ異なる角度から分析している状態です。GPT-3では96個のAttentionヘッドが並列で動いています。

LLMはどうやって賢くなるのか

LLMは生まれたときから賢いわけではありません。最初はランダムな数値の塊にすぎず、「あいうえお」すらまともに出力できません。そこから3つの段階を経て、私たちが使えるレベルまで成長します。

この3段階を、人間の成長にたとえると理解しやすくなります。

LLMの成長 ── 3つのフェーズ

事前学習（Pre-training）

たとえ: 図書館の本をすべて読む子ども

インターネット上の膨大なテキスト（Wikipedia、書籍、ニュース記事、Webサイト、コードなど）を読み込み、「言語のルール」を学びます。このとき学んでいるのは特定の質問への答えではなく、「日本語とはこういう風に使う」「プログラミング言語はこういう構文」という言語の根本的なパターンです。

Wikipedia 書籍・論文 Webページソースコードニュース記事

ファインチューニング（Fine-tuning）

たとえ: 家庭教師について「対話の仕方」を練習する

事前学習だけだと、LLMは「文章の続きを書く」ことはできますが、「質問に的確に答える」「指示に従って行動する」ことは苦手です。そこで、人間が作った高品質な「質問と回答のペア」を使って追加学習を行います。これにより「ユーザーが何を求めているか」を理解し、適切な形式で応答できるようになります。

RLHF（人間のフィードバックによる強化学習）

たとえ: 先輩に「どっちの回答がいい？」と何千回も評価してもらう

RLHF = Reinforcement Learning from Human Feedback（人間のフィードバックに基づく強化学習）。同じ質問に対してLLMが複数の回答を生成し、人間の評価者が「こっちの方がわかりやすい」「こっちは正確」と評価します。その評価結果を使って「良い回答とは何か」の基準を学習します。安全性やマナーもこの段階で身につきます。

出典: Ouyang et al., "Training language models to follow instructions with human feedback", 2022

事前学習のみのLLM

質問: 「東京タワーの高さは？」

東京タワーの高さは333メートルで、1958年に完成した。東京タワーは日本電波塔とも呼ばれ、観光名所としても知られている。東京タワーの周辺には芝公園があり...

答えは合っているが、聞いていないことまで延々と続く

RLHF後のLLM

質問: 「東京タワーの高さは？」

東京タワーの高さは333メートルです。

質問に対して的確に、簡潔に答えている

気づきましたか？

LLMが「賢く見える」のは、事前学習で言語能力を身につけた上に、ファインチューニングとRLHFで「人間にとって役立つ回答の仕方」を学んでいるからです。知識だけでなく、「コミュニケーション能力」も後から訓練されているのです。

代表的なLLM ── 今、誰が作っているのか

2026年現在、LLMの開発競争は激しさを増しています。特に大きな存在感を示しているのが、以下の3社です。それぞれのモデルには異なる強みがあり、用途に応じて使い分けるのが一般的になっています。

GPT-5シリーズ

OpenAI

ChatGPTの頭脳。世界で最も多くのユーザーに使われているLLMシリーズ。数学や論理的推論に特に強みを持ちます。

数学が得意高速処理幅広い用途

Claude

Anthropic

安全性と正確性を重視して設計されたLLM。特にプログラミングと長文の処理に強く、開発者から高い支持を得ています。

コーディング最強安全性重視長文に強い

Gemini

Google

テキストだけでなく、画像・動画・音声も同時に理解できる「マルチモーダル」が最大の強み。Google検索やYouTubeとの連携も特徴です。

マルチモーダル推論が得意コスト効率

オープンソースLLM

Meta（Llama）、Mistral 他

ソースコードや学習済みモデルが公開されており、誰でも無料で利用・改良できます。企業が自社サーバーで動かし、データを外部に出さずに使えるのが大きなメリットです。

無料で利用可能カスタマイズ自在データが手元に残る

2026年のトレンドとして注目すべきは、「1つのモデルですべてを賄う」のではなく、用途に応じて複数のモデルを使い分ける「マルチモデル戦略」が主流になりつつあることです。長い文書の分析にはGemini、コードの生成にはClaude、計算問題にはGPT-5、というように適材適所で使い分けます。

ちょっと補足: LLMの学習コスト

GPT-4クラスのLLMを1から学習させるには、数千〜数万台のGPU（画像処理用の高性能チップ）を数ヶ月間フル稼働させる必要があり、学習コストだけで数千万〜数億ドルと推定されています。「AIは誰でも作れる」と言われますが、基盤モデル（Foundation Model）の学習には莫大な資金と設備が必要です。

LLMの「できること」と「苦手なこと」

LLMは非常に強力ですが、万能ではありません。何が得意で、何が苦手なのかを正しく理解しておくことが、LLMを上手に活用するための第一歩です。

得意なこと

文章の生成・要約 ── 長い報告書を3行にまとめる、メールの下書きを作るなど
翻訳 ── 多言語間の翻訳を、文脈を踏まえて自然に行う
プログラミング支援 ── コードの生成、バグの発見、リファクタリング
質問応答 ── 学習済みの知識の範囲内で質問に回答する
アイデア出し ── ブレインストーミングの壁打ち相手になる

苦手なこと

最新情報の取得 ── 学習データ以降の出来事は知らない（リアルタイム検索は別機能）
正確な計算 ── 複雑な数式の計算はミスする。電卓の方が確実
事実の正確性 ── もっともらしいが間違った情報を生成することがある（ハルシネーション）
物理世界の体験 ── 味、匂い、痛みなど、身体的な感覚は持っていない
「わからない」と認める ── 知らないことでも何か答えようとする傾向がある

ハルシネーションとは？

LLMが事実と異なる内容を、あたかも正しいかのように自信を持って出力する現象を「ハルシネーション（幻覚）」と呼びます。LLMは「次に自然な言葉を予測する」仕組みなので、事実確認を行っているわけではありません。「もっともらしい文章 = 正しい文章」とは限らない、ということを常に意識しておく必要があります。

よくある誤解

LLMについて学び始めると、多くの人が同じところで引っかかります。ここでは、よくある3つの誤解を取り上げて、正しい理解に修正します。

誤解: 「LLMは人間のように"考えて"いる」

実際は:

LLMは「思考」しているのではなく、膨大なテキストから学んだ統計的パターンに基づいて、最も確率の高い次の単語を選んでいるだけです。人間のような意識や理解は持っていません。「考えているように見える」のは、学習データの規模が桁違いに大きいことと、Transformerの文脈理解能力が高いためです。出力の質が高いことと、「思考」していることは別物です。

誤解: 「LLMはインターネットをリアルタイムで検索している」

実際は:

LLMの知識は学習時に読み込んだデータに基づいています。会話のたびにインターネットを検索しているわけではありません。学習データに含まれていない最新のニュースや出来事については答えられません。ただし、ChatGPTの「ブラウジング機能」やGeminiの「Google検索連携」のように、別途検索機能を組み合わせることで最新情報を取得できるようになっている製品もあります。LLMそのものの機能と、製品としての追加機能は区別して理解することが大切です。

誤解: 「LLMは質問の文章をそのままコピーして返している」

実際は:

LLMは学習データをそのまま丸暗記しているわけではなく、言語のパターンや構造を「圧縮」して記憶しています。たとえるなら、料理のレシピを何千冊も読んだシェフが、レシピ本を見ずに新しい料理を作れるようなものです。LLMの出力はその場で新しく「生成」された文章であり、データベースから検索・コピーしたものではありません。だからこそ、同じ質問でも毎回少し違う回答が返ってくるのです。

まとめ ── 覚えておきたい3つのこと

長い図解を読んでいただきありがとうございます。最後に、この記事で伝えたかったことを3つに絞ってまとめます。

LLMの正体は「次の単語予測マシン」

膨大なテキストから「言葉の使い方」を学び、「次に来る最も自然な言葉」を予測し続ける。この単純な原理を、桁違いの規模で実行することで、翻訳・要約・プログラミング・対話まで、驚くほど多様な言語タスクをこなしています。

Transformerとattentionが鍵

LLMが「文脈を理解できる」のは、Transformer内部のAttention機構のおかげです。文中のすべての単語の関係性を同時に見渡し、「この言葉は前後のどの言葉と関係が深いか」を瞬時に判断します。これにより、同じ単語でも文脈に応じて異なる意味を正しく解釈できます。

強力だが万能ではない

LLMは「考えている」のではなく「予測している」。そのため、もっともらしいが間違った回答（ハルシネーション）を出すこともあります。LLMを上手に使うとは、その得意・不得意を理解した上で、得意な部分をフルに活用し、苦手な部分は人間が補うことです。

LLMは「道具」です。使いこなすのは、あなたです。

次にChatGPTやClaudeを使うとき、「この裏側で、数千億のパラメータが文脈を読み取って、次の単語を選んでいるんだな」と想像してみてください。LLMの仕組みを知っているだけで、より的確な質問ができるようになり、より良い回答を引き出せるようになります。