【2026年最新】音声認識(STT)API料金比較|OpenAI・Google・Deepgram・AssemblyAI

はじめに
音声認識(STT)APIとは?
音声認識(STT:Speech-to-Text)APIとは、音声ファイルや音声ストリームを送ると、AIが自動でテキストに変換して返してくれるサービスです。議事録の自動生成・コールセンターの文字起こし・音声コマンド処理などをプログラムから実現できます。
AIエージェントへの音声入力・自動字幕生成・多言語対応アプリなど、幅広い用途があります。料金はほとんどが「1分あたり課金」で、精度・速度・特化機能(医療・話者識別など)によって大きく差があります。
リアルタイム vs バッチ処理
- リアルタイム(ストリーミング):会話中に逐次テキスト化。コール対応・音声アシスタント向き。バッチより割高
- バッチ処理:録音済み音声を後から変換。議事録・字幕生成向き。リアルタイムより安い傾向
この表の見方
- 料金(1分あたり):音声1分あたりの変換コスト(USD)。トークン課金モデルは目安値を表示
- 精度・特徴:多言語対応・医療特化・話者識別(Diarization)などの主な特徴
- 無料枠:月次の無料利用量
音声認識(STT)API料金比較表(2026年3月時点)
※料金はUSD。2026年3月時点の情報です。最新情報は各社公式ページをご確認ください。
| モデル名 | 提供元 | 料金(1分あたり) | 精度・特徴 | 無料枠 |
|---|---|---|---|---|
| gpt-4o-mini-transcribe | OpenAI | $0.003(目安) | 高速・低コスト | なし |
| gpt-4o-transcribe | $0.006(目安) | 高精度・多言語 | なし | |
| gpt-4o-transcribe-diarize | $0.006(目安) | 高精度+話者識別付き | なし | |
| Google V2 Dynamic Batch | Google Cloud | $0.003 | バッチ処理・低コスト | なし |
| Google V2 Standard | $0.016(〜500K分) | 高精度・多言語・Chirp対応 | なし | |
| Google Medical | $0.078 | 医療特化 | 月60分 | |
| Deepgram Flux | Deepgram | $0.0077 | 最新モデル | $200クレジット(無期限) |
| Deepgram Nova-3 | $0.0077 | 最高精度・ノイズ耐性 | $200クレジット(共通) | |
| Deepgram Nova-3 Multilingual | $0.0092 | 最高精度・多言語 | $200クレジット(共通) | |
| AssemblyAI Universal-2 | AssemblyAI | $0.0025 | 高精度・99言語 | $50クレジット |
| AssemblyAI Universal-3 Pro | $0.0035 | 最高精度・6言語 | $50クレジット(共通) | |
| AssemblyAI Universal-3 Pro Streaming | $0.0075 | リアルタイム・最高精度 | $50クレジット(共通) | |
| Azure Batch STT | Microsoft Azure | $0.003($0.18/時間) | 標準精度・バッチ向き | 月5時間分(F0ティア) |
| Azure Standard Real-time | $0.0167($1/時間) | 標準精度・リアルタイム | 月5時間分(F0ティア) | |
| Amazon Transcribe Standard | Amazon | $0.024(〜250K分) | 標準精度・話者識別オプション | 初12ヶ月 月60分 |
| Amazon Transcribe Medical | $0.075 | 医療特化・高精度 | なし |
※gpt-4o-mini-transcribe・gpt-4o-transcribe・gpt-4o-transcribe-diarizeはトークン課金。料金は1分あたりの目安値。
※Google V2 Standardはボリューム割引あり(500K〜1M分:$0.010、1M〜2M分:$0.008、2M分超:$0.004)。
※Azure Batch STTは$0.18/時間、Azure Standard Real-timeは$1/時間。1分あたりに換算して表示。
※Deepgramはクレジットカード不要で$200の無料クレジット(無期限)を提供。
※Amazon Transcribeはボリュームティア制(250K分超で$0.015、4M分超で$0.0102)。大量処理で単価が下がる。
※AssemblyAIのSpeaker Diarization(話者識別)は$0.02/時間の追加料金。
API未公開・要確認のサービス
- Whisper OSS(セルフホスト):OpenAI公開のモデルをGPUサーバーで自前運用。APIコスト0だがインフラコスト・運用が必要。
- Azure Custom Speech:カスタム語彙・話者適応トレーニング対応。料金はカスタム見積もり。
用途別おすすめ
コスト重視・大量文字起こし向き
AssemblyAI Universal-2($0.0025/分)が最安クラスです。1時間の音声で$0.15と非常に安く、議事録生成・字幕作成など大量バッチ処理に最適です。$50の無料クレジットで約333時間分の文字起こしをテストできます。
Google V2 Dynamic Batch($0.003/分)とgpt-4o-mini-transcribe(約$0.003/分)も同価格帯の低コスト選択肢です。
多言語・汎用精度向き
gpt-4o-transcribe(約$0.006/分)はOpenAIエコシステムとの統合がシームレスで、多言語対応の高品質文字起こしが可能です。話者識別が必要ならgpt-4o-transcribe-diarize(同価格)が最適です。
Deepgram Nova-3($0.0077/分)は最高精度を誇り、$200の無料クレジット(無期限・カード不要)が業界最厚の無料枠です。
リアルタイム・コール対応向き
AssemblyAI Universal-3 Pro Streaming($0.0075/分)はリアルタイム処理に特化した最高精度モデルです。Prompting機能で転写動作を自然言語で制御できます。
Deepgram Nova-3はリアルタイムストリーミングでも低遅延・高精度で動作します。ノイズ耐性が高く、コールセンター環境での利用に強みがあります。
医療・専門分野向き
Amazon Transcribe Medical($0.075/分)とGoogle Medical($0.078/分・月60分無料)が医療用語に特化した高精度モデルです。HIPAA準拠対応が必要な医療系アプリケーションに使用されます。
まとめ
- 最安クラスはAssemblyAI Universal-2($0.0025/分)
- 無料枠最厚はDeepgram($200クレジット・カード不要・無期限)
- OpenAI統合ならgpt-4o-transcribe($0.006/分)・話者識別ならgpt-4o-transcribe-diarize
- リアルタイム高精度ならDeepgram Nova-3($0.0077/分)またはAssemblyAI Universal-3 Pro Streaming($0.0075/分)
- 医療特化ならAmazon Transcribe Medical / Google Medical($0.075〜$0.078/分)
- 大量処理ならAmazon TranscribeのボリュームティアまたはGoogle V2 Dynamic Batch($0.003/分)で単価を下げる戦略も有効
料金は変動することがあります。最新情報は各社公式ページをご確認のうえ、実際の用途でテストして選定してください。





