Question 1

LLMトークンとは

Accepted Answer

トークンは、大規模言語モデル（LLM）がテキストを処理するための基本単位です。トークンは単語、単語の一部、あるいは単一の文字であり、トークナイザーによって異なります。例えば、『tokenization』という単語は『token』と『ization』の2つのトークンに分割される場合があります。LLMの価格設定、レート制限、コンテキストウィンドウがすべてトークン数で測定されるため、トークンを理解することは非常に重要です。

Question 2

トークンカウントの仕組み

Accepted Answer

LLMファミリーごとに異なるトークナイザーを使用しています。OpenAIモデルはtiktoken（BPEベース）を、Claudeはカスタムトークナイザーを、Llama/MistralはSentencePieceを使用しています。このツールは、各モデルファミリーの平均文字数/トークン比率に基づいて推定値を提供します。完全に正確ではありませんが、実際のトークナイザー出力の5～10%以内の精度があり、コスト推定、プロンプトエンジニアリング、コンテキストウィンドウ計画に十分な精度です。

Question 3

コンテキストウィンドウについて

Accepted Answer

コンテキストウィンドウは、LLMが1回の対話で処理できるトークンの最大数です。これには入力（プロンプトとシステム指示）と出力（モデルの応答）の両方が含まれます。GPT-4oは128Kトークン（約96K単語）に対応し、Claude 3.5は200Kトークン（約150K単語）に対応し、Gemini 2.5 Proは最大1Mトークン（約750K単語）に対応しています。コンテキストウィンドウの範囲内に収めることが重要です。超過するとトランケーションやエラーが発生します。

Question 4

トークン最適化のヒント

Accepted Answer

簡潔さ — 不要な単語や冗長な指示を削除してトークン数を削減. システムプロンプトを賢く使用 — コンテキストウィンドウにカウントされます. コードは自然言語より1文字あたりのトークン数が多い. 構造化フォーマット（JSON、XML）はプレーンテキストよりトークン数が多い. 使用状況を監視 — 大きなプロンプトではトークンコストが急速に増加. モデルサイズを検討 — 小規模モデルは安いですが、より詳細なプロンプトが必要な場合があります

LLM Token Counter

LLMトークンとは

トークンカウントの仕組み

コンテキストウィンドウについて

トークン最適化のヒント