CalcTune
🎮
おもしろ · 開発

AIトークンコスト計算

任意のLLM呼び出しのAPIコストを見積もります。モデルを選択し、入力・出力トークン数を入力するだけで、GPT-4o・Claude・Geminiなどのコスト内訳を即座に確認できます。

入力レート: $2.50 / 100万入力トークン出力レート: $10.00 / 100万出力トークン

英語では約4文字 ≈ 1トークン。日本語や記号は異なる場合があります。

クイックプリセット
計算例を表示中 — 上に値を入力してください
推定コスト
$0.0075OpenAI
入力コスト
$0.0025
1,000 tokens
出力コスト
$0.0050
500 tokens
料金は概算であり、最新の価格と異なる場合があります。正確な料金は各プロバイダーの公式ページでご確認ください。

AIトークンコストの完全ガイド:LLM APIの料金を理解して最適化する

大規模言語モデル(LLM)が現代のソフトウェア開発に欠かせない存在となるにつれ、APIコストの理解と管理は開発者、プロダクトマネージャー、そしてAIを活用したサービスを構築するすべての人にとって不可欠なスキルになっています。従来のAPIが多くの場合リクエスト単位で課金するのに対し、LLMのAPIはトークン数—英語テキストで約4文字に相当する処理単位—に基づいて課金します。このトークンベースの料金モデルでは、プロンプトの設計方法、選択するモデル、実行するタスクの性質によってコストが大きく変動します。日本のスタートアップや個人開発者にとっても、API費用はサービスの収益性を左右する重要な要素です。

トークンとは何か

トークンはLLMがテキストを処理する際の基本単位です。モデルは文字単位でも単語単位でもなく、「トークン化」と呼ばれる処理で生成されるサブワード単位でテキストを扱います。1つのトークンは「calculator」のような完全な単語、「cal」と「culator」のような部分的な単語、句読点、空白文字、特殊文字のいずれかになります。英語テキストでは、1トークン ≈ 4文字(単語の約3/4)が目安です。

言語によってトークン化の効率は異なります。日本語・中国語・韓国語などは英語よりも1文字あたりのトークン消費が多く、同じ内容を表現するのにより多くのトークンが必要になる場合があります。これはLLMを日本語で利用する際の重要な考慮点です—英語での見積もりをそのまま日本語コンテンツに適用すると、実際のコストを過小評価する可能性があります。逆にプログラムコードは、構造化された繰り返しパターンや共通キーワードが多いため、自然言語よりもトークン効率が高い傾向があります。

主要なLLMプロバイダーはトークンを正確にカウントするためのツールやAPIエンドポイントを提供しています。予算管理が重要なアプリケーションでは、概算ではなく正確なトークン数を事前に確認することを推奨します。

入力トークンと出力トークンの違い

主要なLLMプロバイダーはいずれも、入力トークン(モデルに送るテキスト)と出力トークン(モデルが生成するテキスト)を区別して課金しています。出力トークンは入力トークンより一貫して高く設定されており、多くの場合3〜5倍の価格差があります。これはテキストを逐次生成する処理が、テキストを並列処理するよりも計算コストが高いためです。

たとえばGPT-4oの場合、入力トークンが100万トークンあたり$2.50であるのに対し、出力トークンは$10.00—4倍の価格差です。Claude 3.5 Sonnetでは入力$3.00に対して出力$15.00と5倍の差があります。この料金構造は、効率的なプロンプト設計と簡潔なモデル応答を促す仕組みとなっています。

AIアプリケーションを設計する際、この非対称性の理解は重要です。文書を要約するケースでは入力(文書)が出力(要約)より10倍長くなることもあり、入力トークンのコストが支配的になります。一方、長文コンテンツを生成するクリエイティブ用途では出力トークンがコストの大部分を占めます。

プロバイダー間のLLM料金比較

LLM APIの市場は競争が激しく、プロバイダーやモデルのグレードによって料金に大きな差があります。2026年初頭時点では、単純なタスク向けの低コストモデル—GPT-4o mini($0.15/$0.60/100万トークン)やGemini 1.5 Flash($0.075/$0.30)—はフロンティアモデルと比べてはるかに安価でありながら、多くのユースケースで十分なパフォーマンスを発揮します。

一方、OpenAIのo1($15/$60/100万トークン)やAnthropicのClaude 3 Opus($15/$75)といったプレミアムモデルは、高度な推論、コード生成、応答品質が重要な用途を対象としています。タスクに適したモデルを選ぶことは、最も効果的なコスト最適化戦略のひとつです。

多くのプロバイダーはバッチ処理割引(通常50%オフ)やボリュームディスカウント、キャッシュ機能も提供しており、大量利用時のコストを大幅に削減できます。プロンプトキャッシュはClaudeなどのプラットフォームで利用可能で、頻繁に繰り返すプロンプト内容をキャッシュし、通常の入力レートの一部だけで再利用できます。長いシステムプロンプトを使うアプリケーションでは大きな節約につながります。

一般的なユースケースのコスト見積もり

1日1,000回の会話を処理する簡単なチャットボットで、1回の交換あたり平均500トークンの入力と200トークンの出力とすると、1日あたり50万トークンの入力と20万トークンの出力を消費します。GPT-4o miniの料金では入力$0.075 + 出力$0.12 = 約$0.195/日、月額約$6—非常に手頃なコストです。GPT-4oを使う場合、同じ処理量で入力$1.25 + 出力$2.00 = $3.25/日、月額$97.50になります。

文書処理—レポート分析、構造化データの抽出、論文要約など—では入力トークンが支配的になります。文書は数千トークンになることがある一方、求める出力は数百トークン程度の構造化情報であるケースが多いです。こうしたシナリオでは、入力料金が低いGemini 1.5 Flashのようなモデルが特に魅力的な選択肢となります。

コーディングアシスタントやコードレビューツールは、複数のファイル、関数定義、会話履歴を含む大きなコンテキストウィンドウを扱います。これらのアプリケーションは、大きなコンテキストウィンドウを競争力のある価格で提供するモデルと、毎回変更のないコードを再処理しないためのプロンプトキャッシュから最も恩恵を受けます。

コスト最適化の戦略

最もインパクトの大きなコスト最適化はモデルルーティングです—単純なタスクには安価な小型モデルを使い、高度な処理が必要な作業にのみ高価なフロンティアモデルを使います。リクエストを複雑さで分類し適切なモデルに振り分けることが実践的なアプローチです。単純なQ&Aや分類タスクにはGPT-4o miniやGemini Flash、複雑な分析や推論にはGPT-4oやClaude Sonnetを使い分けます。

プロンプトエンジニアリングは直接コストに影響します。簡潔で明確なプロンプトは入力トークンを削減します。不要な指示の繰り返しを避け、モデルが効率的に解析できる構造化フォーマットを使い、冗長な前置きを省くことで入力コストを下げられます。出力については、適切なmax_tokensの上限設定により必要以上のコンテンツ生成を防ぎます。

マルチターンアプリケーションではコンテキストウィンドウ管理が重要です。会話履歴のすべてのトークンが各ターンの入力コストに加算されます。過去の会話履歴を要約したり、不要なコンテキストを削除したり、会話圧縮技術を使うことで、長時間のセッションにおけるコストを大幅に削減できます。プロバイダーが対応していれば、よく使うシステムプロンプトのキャッシュによりキャッシュ部分の入力コストを80〜90%削減できます。

料金ページの読み方

LLMの料金ページには多くの要素があり、わかりにくい場合があります。入力・出力トークン料金に加え、コンテキストキャッシュ料金(通常は入力よりも低め)、ファインチューニングのコスト、埋め込みモデル料金(ベクトル検索アプリ向け)、マルチモーダルモデルの画像・音声入力料金にも注意が必要です。一部のプロバイダーでは標準APIアクセスとバッチAPIアクセスを区別しており、バッチ処理は優先度と応答速度を下げる代わりに大きな割引が適用されます。

料金はマーケットの変化に伴い頻繁に更新されます。このCalculatorで使用している料金は概算であり、最新レートを反映していない場合があります。重要な予算計画を立てる前には、各プロバイダーの公式料金ページで現在の料金を必ず確認してください。また、本番環境のアプリケーションでは、プロバイダーのAPIダッシュボードでコストアラートと支出上限を設定しておくことを推奨します。

よくある質問

AIのAPIトークンはどのように数えられますか?

トークンはLLMがテキストを処理するためのサブワード単位です。英語では1トークン ≈ 4文字(単語の約3/4)が目安で、500語の文書は通常600〜750トークン程度になります。日本語やコードなど、言語・内容によってトークン効率は異なります。入力(プロンプト・会話履歴・システムプロンプト)とモデルの出力の両方がカウントされます。主要なプロバイダーは無料のトークナイザーツールを提供しており、正確なトークン数を事前に確認できます。

出力トークンが入力トークンより高い理由は何ですか?

テキストをトークンごとに順次生成する処理(自己回帰生成)は、入力テキストを並列処理するよりも計算コストが高くなります。モデルは出力トークンのたびにニューラルネットワークのフォワードパスを実行する必要がありますが、入力トークンは一括処理できます。この非対称性により、主要なプロバイダーでは出力トークンが入力トークンの3〜5倍の価格に設定されています。

最もAPIコストが安いAIモデルはどれですか?

2026年初頭時点では、Gemini 1.5 Flash($0.075/$0.30/100万トークン)とGPT-4o mini($0.15/$0.60)が高い性能を持つモデルの中でも特にコストが安い部類に入ります。ただし、最安値のモデルが常にコスト効率が良いわけではありません—より安いモデルが追加の試行を必要としたり、品質が低く修正が必要になる場合、トータルコストは高くなる可能性があります。特定のユースケースでのベンチマーク評価を通じて、コストと品質の最適なバランスを見つけることが重要です。

LLM APIのコストを削減するにはどうすれば良いですか?

主な戦略として次のものが挙げられます:(1) 単純なタスクには小型モデルを使い、複雑なタスクは大型モデルにルーティングする。(2) プロンプト長を最適化する—すべてのトークンがコストに影響します。(3) バッチAPIエンドポイントが利用可能な場合は活用する(多くの場合50%割引)。(4) 繰り返し使うシステムプロンプトでプロンプトキャッシュを有効にする(キャッシュ部分で80〜90%の削減)。(5) max_tokensの上限を設定して不要に長い応答を防ぐ。(6) マルチターンアプリケーションで会話履歴を圧縮する。

プロンプトキャッシュとは何ですか?コストにどう影響しますか?

プロンプトキャッシュは、システムプロンプトや文書コンテキストなど頻繁に繰り返す入力内容をモデルのメモリに保存し、API呼び出しのたびに再処理しなくて済むようにする仕組みです。キャッシュ済みトークンは通常の入力料金の10〜25%程度の低い料金で課金されます。大規模で静的なシステムプロンプトや繰り返し参照する文書コンテキストを使うアプリケーションでは、キャッシュにより入力コストを75〜90%削減できる可能性があります。AnthropicのClaude APIと一部のOpenAIエンドポイントでこの機能が利用可能です。