【2026年最新】音声合成(TTS)API料金比較|OpenAI・Google・ElevenLabs・Amazon




音声合成TTS API料金比較

はじめに

音声合成(TTS)APIとは?

音声合成(TTS:Text-to-Speech)APIとは、テキストを送ると、AIが自動で自然な音声を生成して返してくれるサービスです。音声コンテンツの自動生成・読み上げ機能・音声アシスタント・ポッドキャスト自動化などをプログラムから実現できます。

日本語対応モデルや多言語モデル、自然な感情表現が可能な高品質モデルまで、各社の特徴は大きく異なります。料金体系も「1M文字あたり」「1分あたり」「クレジット制」と多様なため、用途に合った選定が重要です。

料金体系の種類

  • 1M文字あたり課金:OpenAI tts-1・Google Cloud TTS・Amazon Polly・Azureなど主流の体系
  • 分あたり課金:gpt-4o-mini-ttsなど一部モデル。音声長に直結するため予測しやすい
  • サブスクリプション+超過課金:ElevenLabsなど。月額固定枠を超えた分のみ従量課金

この表の見方

  • 料金(1M文字あたり):主要な課金単位。1M文字≒400〜600分の音声相当
  • 品質ランク:Standard(基本)・Neural/HD(高品質)・Studio(最高品質)などの区分
  • 無料枠:月次の無料利用量。超過後は有料

音声合成(TTS)API料金比較表(2026年3月時点)

※料金はUSD。2026年3月時点の情報です。最新情報は各社公式ページをご確認ください。

モデル名 提供元 料金(1M文字あたり) 品質ランク 無料枠
Google Standard / WaveNet Google Cloud $4.00 標準・高品質 月4M文字
tts-1 OpenAI $15.00 標準 なし
Google Neural2 Google Cloud $16.00 ニューラル高品質 月1M文字
Azure Neural Microsoft Azure $16.00(目安) 標準ニューラル 月5時間分
Amazon Polly Neural Amazon AWS $16.00 ニューラル高品質 初12ヶ月 月1M文字
tts-1-hd OpenAI $30.00 高品質HD なし
Amazon Polly Generative Amazon AWS $30.00 生成AI級 初12ヶ月 月0.1M文字
Azure Neural HD Microsoft Azure $48.00 超高品質HD 月5時間分(共通)
gpt-4o-mini-tts OpenAI $12.00(出力音声トークン) 高速・自然 なし
ElevenLabs Creator ElevenLabs 月$22(100Kクレジット) 多言語・感情表現 月10Kクレジット(無料プラン)
Amazon Polly Long-Form Amazon AWS $100.00 長文最適化 初12ヶ月 月0.5M文字
Google Studio Google Cloud $160.00 スタジオ最高品質 月1M文字
VOICEVOX OSS(セルフホスト) 無料 中品質・日本語特化 完全無料

※gpt-4o-mini-ttsは出力オーディオトークン$12/1M・入力テキストトークン$0.60/1M。1分あたり約$0.015の目安。
※ElevenLabsはクレジット制(1クレジット≒1文字)。Creatorプランで月100Kクレジット、超過時約$0.30/分。
※Amazon Polly Standardは月5M文字(初12ヶ月)無料・$4/1M文字(超過後)。

用途別おすすめ

コスト重視・大量生成向き

Google Standard / WaveNet($4/1M文字)が最安クラスで、月4M文字の無料枠もあります。日本語を含む多言語に対応しており、コスト効率重視のパイプラインに適しています。

Amazon Polly Standardも同価格帯($4/1M文字)で、初12ヶ月は月5M文字まで無料です。AWSエコシステムで統一している場合に使いやすい選択肢です。

品質重視・自然な発話向き

Google Neural2($16/1M文字)Amazon Polly Neural($16/1M文字)が品質と価格のバランスが取れた中価格帯です。

感情表現・声のカスタマイズを重視するならElevenLabsが最も豊富なオプションを持ちます。多言語対応モデル(Multilingual v2/v3)・低遅延モデル(Flash/Turbo)など用途別に選べます。

日本語音声・OSS利用向き

VOICEVOXは完全無料のOSSで、ずんだもんなど複数の日本語キャラクター音声を利用できます。APIサーバーを自前構築する必要がありますが、コストゼロで日本語TTSを実装できます。

OpenAIエコシステムで統一したい場合

gpt-4o-mini-ttsは自然な感情表現と高速レスポンスが特徴です。他のOpenAI APIと組み合わせてシームレスに音声機能を追加できます(目安$0.015/分)。

まとめ

  • 最安クラスはGoogle Standard / WaveNet・Amazon Polly Standard($4/1M文字)
  • 無料枠最大はGoogle Standard/WaveNet(月4M文字)
  • 品質・感情表現重視ならElevenLabsが最も豊富なオプション
  • 日本語特化・完全無料ならVOICEVOX(セルフホスト)
  • OpenAI統一ならtts-1($15)・tts-1-hd($30)・gpt-4o-mini-tts(約$0.015/分)から選択
  • Google Studioは最高品質だが$160/1M文字と高コスト。プロ用途に限定

料金は変動することがあります。最新情報は各社公式ページをご確認のうえ、実際の用途でテストして選定してください。