【2026年最新】音声合成(TTS)API料金比較|OpenAI・Google・ElevenLabs・Amazon

はじめに
音声合成(TTS)APIとは?
音声合成(TTS:Text-to-Speech)APIとは、テキストを送ると、AIが自動で自然な音声を生成して返してくれるサービスです。音声コンテンツの自動生成・読み上げ機能・音声アシスタント・ポッドキャスト自動化などをプログラムから実現できます。
日本語対応モデルや多言語モデル、自然な感情表現が可能な高品質モデルまで、各社の特徴は大きく異なります。料金体系も「1M文字あたり」「1分あたり」「クレジット制」と多様なため、用途に合った選定が重要です。
料金体系の種類
- 1M文字あたり課金:OpenAI tts-1・Google Cloud TTS・Amazon Polly・Azureなど主流の体系
- 分あたり課金:gpt-4o-mini-ttsなど一部モデル。音声長に直結するため予測しやすい
- サブスクリプション+超過課金:ElevenLabsなど。月額固定枠を超えた分のみ従量課金
この表の見方
- 料金(1M文字あたり):主要な課金単位。1M文字≒400〜600分の音声相当
- 品質ランク:Standard(基本)・Neural/HD(高品質)・Studio(最高品質)などの区分
- 無料枠:月次の無料利用量。超過後は有料
音声合成(TTS)API料金比較表(2026年3月時点)
※料金はUSD。2026年3月時点の情報です。最新情報は各社公式ページをご確認ください。
| モデル名 | 提供元 | 料金(1M文字あたり) | 品質ランク | 無料枠 |
|---|---|---|---|---|
| Google Standard / WaveNet | Google Cloud | $4.00 | 標準・高品質 | 月4M文字 |
| tts-1 | OpenAI | $15.00 | 標準 | なし |
| Google Neural2 | Google Cloud | $16.00 | ニューラル高品質 | 月1M文字 |
| Azure Neural | Microsoft Azure | $16.00(目安) | 標準ニューラル | 月5時間分 |
| Amazon Polly Neural | Amazon AWS | $16.00 | ニューラル高品質 | 初12ヶ月 月1M文字 |
| tts-1-hd | OpenAI | $30.00 | 高品質HD | なし |
| Amazon Polly Generative | Amazon AWS | $30.00 | 生成AI級 | 初12ヶ月 月0.1M文字 |
| Azure Neural HD | Microsoft Azure | $48.00 | 超高品質HD | 月5時間分(共通) |
| gpt-4o-mini-tts | OpenAI | $12.00(出力音声トークン) | 高速・自然 | なし |
| ElevenLabs Creator | ElevenLabs | 月$22(100Kクレジット) | 多言語・感情表現 | 月10Kクレジット(無料プラン) |
| Amazon Polly Long-Form | Amazon AWS | $100.00 | 長文最適化 | 初12ヶ月 月0.5M文字 |
| Google Studio | Google Cloud | $160.00 | スタジオ最高品質 | 月1M文字 |
| VOICEVOX | OSS(セルフホスト) | 無料 | 中品質・日本語特化 | 完全無料 |
※gpt-4o-mini-ttsは出力オーディオトークン$12/1M・入力テキストトークン$0.60/1M。1分あたり約$0.015の目安。
※ElevenLabsはクレジット制(1クレジット≒1文字)。Creatorプランで月100Kクレジット、超過時約$0.30/分。
※Amazon Polly Standardは月5M文字(初12ヶ月)無料・$4/1M文字(超過後)。
用途別おすすめ
コスト重視・大量生成向き
Google Standard / WaveNet($4/1M文字)が最安クラスで、月4M文字の無料枠もあります。日本語を含む多言語に対応しており、コスト効率重視のパイプラインに適しています。
Amazon Polly Standardも同価格帯($4/1M文字)で、初12ヶ月は月5M文字まで無料です。AWSエコシステムで統一している場合に使いやすい選択肢です。
品質重視・自然な発話向き
Google Neural2($16/1M文字)とAmazon Polly Neural($16/1M文字)が品質と価格のバランスが取れた中価格帯です。
感情表現・声のカスタマイズを重視するならElevenLabsが最も豊富なオプションを持ちます。多言語対応モデル(Multilingual v2/v3)・低遅延モデル(Flash/Turbo)など用途別に選べます。
日本語音声・OSS利用向き
VOICEVOXは完全無料のOSSで、ずんだもんなど複数の日本語キャラクター音声を利用できます。APIサーバーを自前構築する必要がありますが、コストゼロで日本語TTSを実装できます。
OpenAIエコシステムで統一したい場合
gpt-4o-mini-ttsは自然な感情表現と高速レスポンスが特徴です。他のOpenAI APIと組み合わせてシームレスに音声機能を追加できます(目安$0.015/分)。
まとめ
- 最安クラスはGoogle Standard / WaveNet・Amazon Polly Standard($4/1M文字)
- 無料枠最大はGoogle Standard/WaveNet(月4M文字)
- 品質・感情表現重視ならElevenLabsが最も豊富なオプション
- 日本語特化・完全無料ならVOICEVOX(セルフホスト)
- OpenAI統一ならtts-1($15)・tts-1-hd($30)・gpt-4o-mini-tts(約$0.015/分)から選択
- Google Studioは最高品質だが$160/1M文字と高コスト。プロ用途に限定
料金は変動することがあります。最新情報は各社公式ページをご確認のうえ、実際の用途でテストして選定してください。





