【2026年最新】音声認識(STT)API料金比較|OpenAI Whisper・Google・Deepgram・AssemblyAI

はじめに
音声認識(STT)APIとは?
音声認識(STT:Speech-to-Text)APIとは、音声ファイルや音声ストリームを送ると、AIが自動でテキストに変換して返してくれるサービスです。議事録の自動生成・コールセンターの文字起こし・音声コマンド処理などをプログラムから実現できます。
AIエージェントへの音声入力・自動字幕生成・多言語対応アプリなど、幅広い用途があります。料金はほとんどが「1分あたり課金」で、精度・速度・特化機能(医療・法律など)によって大きく差があります。
リアルタイム vs バッチ処理
- リアルタイム(ストリーミング):会話中に逐次テキスト化。コール対応・音声アシスタント向き。バッチより割高
- バッチ処理:録音済み音声を後から変換。議事録・字幕生成向き。リアルタイムより安い傾向
この表の見方
- 料金(1分あたり):音声1分あたりの変換コスト(USD)
- 精度・特徴:多言語対応・医療特化・話者識別(Diarization)などの主な特徴
- 無料枠:月次の無料利用量
音声認識(STT)API料金比較表(2026年3月時点)
※料金はUSD。2026年3月時点の情報です。最新情報は各社公式ページをご確認ください。
| モデル名 | 提供元 | 料金(1分あたり) | 精度・特徴 | 無料枠 |
|---|---|---|---|---|
| AssemblyAI Universal-2 | AssemblyAI | $0.0025 | 高精度・多言語 | $50クレジット |
| AssemblyAI Universal-3 Pro | AssemblyAI | $0.0035 | 最高精度・多言語 | $50クレジット(共通) |
| OpenAI Whisper | OpenAI | $0.006 | 高精度・多言語対応 | なし(新規$5クレジット) |
| Azure Batch STT | Microsoft Azure | $0.006 | 標準精度・バッチ向き | 月5時間分(F0ティア) |
| Deepgram Nova-3 | Deepgram | $0.0077 | 最高精度・ノイズ耐性・新言語追加※ | $200クレジット(無期限) |
| Deepgram Nova-3 Multilingual | Deepgram | $0.0092 | 最高精度・多言語 | $200クレジット(共通) |
| Google V2 Standard(Chirp) | Google Cloud | $0.016 | 高精度・多言語・Chirp | V1のみ月60分 |
| Azure Standard Real-time | Microsoft Azure | $0.0167 | 標準精度・リアルタイム | 月5時間分(F0ティア) |
| Amazon Transcribe Standard | Amazon AWS | $0.024(〜250K分) | 標準精度・話者識別オプション | 初12ヶ月 月60分 |
| Amazon Transcribe Medical | Amazon AWS | $0.075 | 医療特化・高精度 | なし |
| Google Medical | Google Cloud | $0.078 | 医療特化 | なし |
※Deepgramはクレジットカード不要で$200の無料クレジット(無期限)を提供。最も充実した無料枠。
※Google V1 Standardは月60分無料、V2(Chirp)は無料枠なし。Dynamic Batch利用で$0.003/分まで低減可能。
※Amazon Transcribeはボリュームティア制(250K分超で$0.016、5M分超で$0.0078)。大量処理で単価が下がる。
※AssemblyAIのStreaming(リアルタイム)は$0.0025〜$0.0045/分。話者識別(Diarization)は+$0.02〜$0.12/時間。
API未公開・要確認のサービス
- Whisper OSS(セルフホスト):OpenAI公開のモデルをGPUサーバーで自前運用。APIコスト0だがインフラコスト・運用が必要。
- Azure Custom Speech:カスタム語彙・話者適応トレーニング対応。料金はカスタム見積もり。
用途別おすすめ
コスト重視・大量文字起こし向き
AssemblyAI Universal-2($0.0025/分)が最安クラスです。1時間の音声で$0.15と非常に安く、議事録生成・字幕作成など大量バッチ処理に最適です。$50の無料クレジットで約333時間分の文字起こしをテストできます。
Deepgram Nova-3($0.0077/分)は最高精度を誇り、$200の無料クレジット(無期限・カード不要)が業界最厚の無料枠です。まずテストしてみる用途に最適です。2026年3月にアラビア語・ヘブライ語・ペルシャ語・ウルドゥー語を新たに追加(料金変更なし)。
多言語・汎用精度向き
OpenAI Whisper($0.006/分)は99言語以上に対応し、OpenAIエコシステムとの統合がシームレスです。信頼性の高い定番選択肢として広く使われています。
リアルタイム・コール対応向き
Deepgram Nova-3はリアルタイムストリーミングでも低遅延・高精度で動作します。ノイズ耐性が高く、コールセンター環境での利用に強みがあります。
Azure Standard Real-time($0.0167/分)はMicrosoftエコシステム統合・月5時間の無料枠つきで、Teamsやビジネスアプリとの連携に向いています。
医療・専門分野向き
Amazon Transcribe Medical($0.075/分)とGoogle Medical($0.078/分)が医療用語に特化した高精度モデルです。HIPAA準拠対応が必要な医療系アプリケーションに使用されます。
まとめ
- 最安クラスはAssemblyAI Universal-2($0.0025/分)
- 無料枠最厚はDeepgram($200クレジット・カード不要・無期限)
- 多言語汎用ならOpenAI Whisper($0.006/分・99言語以上)
- リアルタイム高精度ならDeepgram Nova-3($0.0077/分)
- 医療特化ならAmazon Transcribe Medical / Google Medical($0.075〜$0.078/分)
- 大量処理ならAmazon Transcribeのボリュームティアで単価を下げる戦略も有効
料金は変動することがあります。最新情報は各社公式ページをご確認のうえ、実際の用途でテストして選定してください。





