【2026年最新】音声合成(TTS)API料金比較|OpenAI・Google・ElevenLabs・Amazon

はじめに
音声合成(TTS)APIとは?
音声合成(TTS:Text-to-Speech)APIとは、テキストを送ると、AIが自動で自然な音声を生成して返してくれるサービスです。音声コンテンツの自動生成・読み上げ機能・音声アシスタント・ポッドキャスト自動化などをプログラムから実現できます。
日本語対応モデルや多言語モデル、自然な感情表現が可能な高品質モデルまで、各社の特徴は大きく異なります。料金体系も「1M文字あたり」「トークンあたり」「クレジット制」と多様なため、用途に合った選定が重要です。
料金体系の種類
- 1M文字あたり課金:Google Cloud TTS・Amazon Polly・Azureなど主流の体系
- トークンあたり課金:gpt-4o-mini-tts・Gemini 2.5 TTSなど。音声長に直結するため予測しやすい
- サブスクリプション+超過課金:ElevenLabsなど。月額固定枠を超えた分のみ従量課金
この表の見方
- 料金(1M文字あたり):主要な課金単位。1M文字≒400〜600分の音声相当。トークン課金モデルは単位が異なります
- 品質ランク:Standard(基本)・Neural/HD(高品質)・Studio(最高品質)などの区分
- 無料枠:月次の無料利用量。超過後は有料
音声合成(TTS)API料金比較表(2026年3月時点)
※料金はUSD。2026年3月時点の情報です。最新情報は各社公式ページをご確認ください。
| モデル名 | 提供元 | 料金(1M文字あたり) | 品質ランク | 無料枠 |
|---|---|---|---|---|
| Google WaveNet | $4.00 | 高品質ニューラル | 月4M文字 | |
| Google Neural2 | $16.00 | ニューラル高品質 | 月1M文字 | |
| Gemini 2.5 Flash TTS | 入力$0.50・出力$10.00(/1Mトークン) | 高品質・低遅延 | 無料枠あり(Gemini API) | |
| Gemini 2.5 Pro TTS | 入力$1.00・出力$20.00(/1Mトークン) | 最高品質 | なし(有料のみ) | |
| Gemini 3.1 Flash TTS | 入力$1.00・出力$20.00(/1Mトークン) | 高品質・多言語 | 無料枠あり(Google AI Studio) | |
| Chirp 3: HD音声 | $30.00 | 高品質HD・多言語 | 月1M文字 | |
| gpt-4o-mini-tts | OpenAI | $12.00(出力音声トークン) | 高速・自然 | なし |
| Amazon Polly Neural | Amazon | $16.00 | ニューラル高品質 | 初12ヶ月 月1M文字 |
| Amazon Polly Generative | $30.00 | 生成AI級 | 初12ヶ月 月0.1M文字 | |
| Amazon Polly Long-Form | $100.00 | 長文最適化 | 初12ヶ月 月0.5M文字 | |
| ElevenLabs Flash / Turbo | ElevenLabs | 月$22(200K文字込み) | 低遅延・高速 | 月10Kクレジット(無料プラン) |
| ElevenLabs Multilingual v2/v3 | 月$22(100K文字込み) | 多言語・感情表現 | 月10Kクレジット(無料プラン) | |
| Azure Neural | Microsoft Azure | $15.00 | 標準ニューラル | 月5時間分 |
| Azure Neural HD | $48.00 | 超高品質HD | 月5時間分(共通) | |
| VOICEVOX | OSS(セルフホスト) | 無料 | 中品質・日本語特化 | 完全無料 |
※gpt-4o-mini-ttsは出力オーディオトークン$12/1M・入力テキストトークン$0.60/1M。1分あたり約$0.015の目安。
※Gemini 2.5 Flash TTS・Gemini 2.5 Pro TTSはトークン課金(文字数ではなくトークン数)。他モデルとは単位が異なります。
※ElevenLabs Flash/Turboは低遅延・高速モデル(200K文字込み)。Multilingual v2/v3は多言語・感情表現対応の高品質モデル(100K文字込み)。両プランともCreatorプラン月$22。超過時:Flash/Turbo $0.12/1K文字、Multilingual v2/v3 $0.24/1K文字。
※Amazon Polly Standardは月5M文字(初12ヶ月)無料・$4/1M文字(超過後)。
用途別おすすめ
コスト重視・大量生成向き
Google WaveNet($4/1M文字)が最安クラスで、月4M文字の無料枠もあります。日本語を含む多言語に対応しており、コスト効率重視のパイプラインに適しています。
Amazon Polly Standardも同価格帯($4/1M文字)で、初12ヶ月は月5M文字まで無料です。AWSエコシステムで統一している場合に使いやすい選択肢です。
品質重視・自然な発話向き
Google Neural2($16/1M文字)とAmazon Polly Neural($16/1M文字)が品質と価格のバランスが取れた中価格帯です。
感情表現・声のカスタマイズを重視するならElevenLabsが最も豊富なオプションを持ちます。低遅延・高速が必要なリアルタイム用途にはFlash/Turbo(月$22・200K文字込み)、多言語・感情表現重視ならMultilingual v2/v3(月$22・100K文字込み)から選択できます。
AIエージェント組み込み向き
Gemini 2.5 Flash TTS(入力$0.50・出力$10.00/1Mトークン)は、Gemini APIと同一キーで利用でき、マルチモーダルなAIエージェントへの音声機能追加に最適です。より高品質を求める場合はGemini 2.5 Pro TTS(入力$1.00・出力$20.00/1Mトークン)が選択肢になります。
Chirp 3: HD音声($30/1M文字)は多言語対応の高品質音声で、月1M文字の無料枠を活用したテストが可能です。
日本語音声・OSS利用向き
VOICEVOXは完全無料のOSSで、ずんだもんなど複数の日本語キャラクター音声を利用できます。APIサーバーを自前構築する必要がありますが、コストゼロで日本語TTSを実装できます。
OpenAIエコシステムで統一したい場合
gpt-4o-mini-ttsは自然な感情表現と高速レスポンスが特徴です。他のOpenAI APIと組み合わせてシームレスに音声機能を追加できます(目安$0.015/分)。
まとめ
- 最安クラスはGoogle WaveNet・Amazon Polly Standard($4/1M文字)
- 無料枠最大はGoogle WaveNet(月4M文字)
- 品質・感情表現重視ならElevenLabsが最も豊富なオプション(Flash/Turbo・Multilingual v2/v3)
- AIエージェント組み込みにはGemini 2.5 Flash TTS(トークン課金・Gemini APIと共通キー)
- Chirp 3 HDは$30/1M文字・月1M文字無料枠で高品質音声が試せる
- 日本語特化・完全無料ならVOICEVOX(セルフホスト)
- OpenAI統一ならgpt-4o-mini-tts(約$0.015/分)
料金は変動することがあります。最新情報は各社公式ページをご確認のうえ、実際の用途でテストして選定してください。





