【2026年最新】音声合成(TTS)API料金比較|OpenAI・Google・ElevenLabs・Amazon




音声合成TTS API料金比較

はじめに

音声合成(TTS)APIとは?

音声合成(TTS:Text-to-Speech)APIとは、テキストを送ると、AIが自動で自然な音声を生成して返してくれるサービスです。音声コンテンツの自動生成・読み上げ機能・音声アシスタント・ポッドキャスト自動化などをプログラムから実現できます。

日本語対応モデルや多言語モデル、自然な感情表現が可能な高品質モデルまで、各社の特徴は大きく異なります。料金体系も「1M文字あたり」「トークンあたり」「クレジット制」と多様なため、用途に合った選定が重要です。

料金体系の種類

  • 1M文字あたり課金:Google Cloud TTS・Amazon Polly・Azureなど主流の体系
  • トークンあたり課金:gpt-4o-mini-tts・Gemini 2.5 TTSなど。音声長に直結するため予測しやすい
  • サブスクリプション+超過課金:ElevenLabsなど。月額固定枠を超えた分のみ従量課金

この表の見方

  • 料金(1M文字あたり):主要な課金単位。1M文字≒400〜600分の音声相当。トークン課金モデルは単位が異なります
  • 品質ランク:Standard(基本)・Neural/HD(高品質)・Studio(最高品質)などの区分
  • 無料枠:月次の無料利用量。超過後は有料

音声合成(TTS)API料金比較表(2026年3月時点)

※料金はUSD。2026年3月時点の情報です。最新情報は各社公式ページをご確認ください。

モデル名 提供元 料金(1M文字あたり) 品質ランク 無料枠
Google WaveNet Google $4.00 高品質ニューラル 月4M文字
Google Neural2 $16.00 ニューラル高品質 月1M文字
Gemini 2.5 Flash TTS 入力$0.50・出力$10.00(/1Mトークン) 高品質・低遅延 無料枠あり(Gemini API)
Gemini 2.5 Pro TTS 入力$1.00・出力$20.00(/1Mトークン) 最高品質 なし(有料のみ)
Gemini 3.1 Flash TTS 入力$1.00・出力$20.00(/1Mトークン) 高品質・多言語 無料枠あり(Google AI Studio)
Chirp 3: HD音声 $30.00 高品質HD・多言語 月1M文字
gpt-4o-mini-tts OpenAI $12.00(出力音声トークン) 高速・自然 なし
Amazon Polly Neural Amazon $16.00 ニューラル高品質 初12ヶ月 月1M文字
Amazon Polly Generative $30.00 生成AI級 初12ヶ月 月0.1M文字
Amazon Polly Long-Form $100.00 長文最適化 初12ヶ月 月0.5M文字
ElevenLabs Flash / Turbo ElevenLabs 月$22(200K文字込み) 低遅延・高速 月10Kクレジット(無料プラン)
ElevenLabs Multilingual v2/v3 月$22(100K文字込み) 多言語・感情表現 月10Kクレジット(無料プラン)
Azure Neural Microsoft Azure $15.00 標準ニューラル 月5時間分
Azure Neural HD $48.00 超高品質HD 月5時間分(共通)
VOICEVOX OSS(セルフホスト) 無料 中品質・日本語特化 完全無料

※gpt-4o-mini-ttsは出力オーディオトークン$12/1M・入力テキストトークン$0.60/1M。1分あたり約$0.015の目安。
※Gemini 2.5 Flash TTS・Gemini 2.5 Pro TTSはトークン課金(文字数ではなくトークン数)。他モデルとは単位が異なります。
※ElevenLabs Flash/Turboは低遅延・高速モデル(200K文字込み)。Multilingual v2/v3は多言語・感情表現対応の高品質モデル(100K文字込み)。両プランともCreatorプラン月$22。超過時:Flash/Turbo $0.12/1K文字、Multilingual v2/v3 $0.24/1K文字。
※Amazon Polly Standardは月5M文字(初12ヶ月)無料・$4/1M文字(超過後)。

用途別おすすめ

コスト重視・大量生成向き

Google WaveNet($4/1M文字)が最安クラスで、月4M文字の無料枠もあります。日本語を含む多言語に対応しており、コスト効率重視のパイプラインに適しています。

Amazon Polly Standardも同価格帯($4/1M文字)で、初12ヶ月は月5M文字まで無料です。AWSエコシステムで統一している場合に使いやすい選択肢です。

品質重視・自然な発話向き

Google Neural2($16/1M文字)Amazon Polly Neural($16/1M文字)が品質と価格のバランスが取れた中価格帯です。

感情表現・声のカスタマイズを重視するならElevenLabsが最も豊富なオプションを持ちます。低遅延・高速が必要なリアルタイム用途にはFlash/Turbo(月$22・200K文字込み)、多言語・感情表現重視ならMultilingual v2/v3(月$22・100K文字込み)から選択できます。

AIエージェント組み込み向き

Gemini 2.5 Flash TTS(入力$0.50・出力$10.00/1Mトークン)は、Gemini APIと同一キーで利用でき、マルチモーダルなAIエージェントへの音声機能追加に最適です。より高品質を求める場合はGemini 2.5 Pro TTS(入力$1.00・出力$20.00/1Mトークン)が選択肢になります。

Chirp 3: HD音声($30/1M文字)は多言語対応の高品質音声で、月1M文字の無料枠を活用したテストが可能です。

日本語音声・OSS利用向き

VOICEVOXは完全無料のOSSで、ずんだもんなど複数の日本語キャラクター音声を利用できます。APIサーバーを自前構築する必要がありますが、コストゼロで日本語TTSを実装できます。

OpenAIエコシステムで統一したい場合

gpt-4o-mini-ttsは自然な感情表現と高速レスポンスが特徴です。他のOpenAI APIと組み合わせてシームレスに音声機能を追加できます(目安$0.015/分)。

まとめ

  • 最安クラスはGoogle WaveNet・Amazon Polly Standard($4/1M文字)
  • 無料枠最大はGoogle WaveNet(月4M文字)
  • 品質・感情表現重視ならElevenLabsが最も豊富なオプション(Flash/Turbo・Multilingual v2/v3)
  • AIエージェント組み込みにはGemini 2.5 Flash TTS(トークン課金・Gemini APIと共通キー)
  • Chirp 3 HDは$30/1M文字・月1M文字無料枠で高品質音声が試せる
  • 日本語特化・完全無料ならVOICEVOX(セルフホスト)
  • OpenAI統一ならgpt-4o-mini-tts(約$0.015/分)

料金は変動することがあります。最新情報は各社公式ページをご確認のうえ、実際の用途でテストして選定してください。