【2026年最新】音声認識(STT)API料金比較|OpenAI Whisper・Google・Deepgram・AssemblyAI




音声認識STT API料金比較

はじめに

音声認識(STT)APIとは?

音声認識(STT:Speech-to-Text)APIとは、音声ファイルや音声ストリームを送ると、AIが自動でテキストに変換して返してくれるサービスです。議事録の自動生成・コールセンターの文字起こし・音声コマンド処理などをプログラムから実現できます。

AIエージェントへの音声入力・自動字幕生成・多言語対応アプリなど、幅広い用途があります。料金はほとんどが「1分あたり課金」で、精度・速度・特化機能(医療・法律など)によって大きく差があります。

リアルタイム vs バッチ処理

  • リアルタイム(ストリーミング):会話中に逐次テキスト化。コール対応・音声アシスタント向き。バッチより割高
  • バッチ処理:録音済み音声を後から変換。議事録・字幕生成向き。リアルタイムより安い傾向

この表の見方

  • 料金(1分あたり):音声1分あたりの変換コスト(USD)
  • 精度・特徴:多言語対応・医療特化・話者識別(Diarization)などの主な特徴
  • 無料枠:月次の無料利用量

音声認識(STT)API料金比較表(2026年3月時点)

※料金はUSD。2026年3月時点の情報です。最新情報は各社公式ページをご確認ください。

モデル名 提供元 料金(1分あたり) 精度・特徴 無料枠
AssemblyAI Universal-2 AssemblyAI $0.0025 高精度・多言語 $50クレジット
AssemblyAI Universal-3 Pro AssemblyAI $0.0035 最高精度・多言語 $50クレジット(共通)
OpenAI Whisper OpenAI $0.006 高精度・多言語対応 なし(新規$5クレジット)
Azure Batch STT Microsoft Azure $0.006 標準精度・バッチ向き 月5時間分(F0ティア)
Deepgram Nova-3 Deepgram $0.0077 最高精度・ノイズ耐性・新言語追加※ $200クレジット(無期限)
Deepgram Nova-3 Multilingual Deepgram $0.0092 最高精度・多言語 $200クレジット(共通)
Google V2 Standard(Chirp) Google Cloud $0.016 高精度・多言語・Chirp V1のみ月60分
Azure Standard Real-time Microsoft Azure $0.0167 標準精度・リアルタイム 月5時間分(F0ティア)
Amazon Transcribe Standard Amazon AWS $0.024(〜250K分) 標準精度・話者識別オプション 初12ヶ月 月60分
Amazon Transcribe Medical Amazon AWS $0.075 医療特化・高精度 なし
Google Medical Google Cloud $0.078 医療特化 なし

※Deepgramはクレジットカード不要で$200の無料クレジット(無期限)を提供。最も充実した無料枠。
※Google V1 Standardは月60分無料、V2(Chirp)は無料枠なし。Dynamic Batch利用で$0.003/分まで低減可能。
※Amazon Transcribeはボリュームティア制(250K分超で$0.016、5M分超で$0.0078)。大量処理で単価が下がる。
※AssemblyAIのStreaming(リアルタイム)は$0.0025〜$0.0045/分。話者識別(Diarization)は+$0.02〜$0.12/時間。

API未公開・要確認のサービス

  • Whisper OSS(セルフホスト):OpenAI公開のモデルをGPUサーバーで自前運用。APIコスト0だがインフラコスト・運用が必要。
  • Azure Custom Speech:カスタム語彙・話者適応トレーニング対応。料金はカスタム見積もり。

用途別おすすめ

コスト重視・大量文字起こし向き

AssemblyAI Universal-2($0.0025/分)が最安クラスです。1時間の音声で$0.15と非常に安く、議事録生成・字幕作成など大量バッチ処理に最適です。$50の無料クレジットで約333時間分の文字起こしをテストできます。

Deepgram Nova-3($0.0077/分)は最高精度を誇り、$200の無料クレジット(無期限・カード不要)が業界最厚の無料枠です。まずテストしてみる用途に最適です。2026年3月にアラビア語・ヘブライ語・ペルシャ語・ウルドゥー語を新たに追加(料金変更なし)。

多言語・汎用精度向き

OpenAI Whisper($0.006/分)は99言語以上に対応し、OpenAIエコシステムとの統合がシームレスです。信頼性の高い定番選択肢として広く使われています。

リアルタイム・コール対応向き

Deepgram Nova-3はリアルタイムストリーミングでも低遅延・高精度で動作します。ノイズ耐性が高く、コールセンター環境での利用に強みがあります。

Azure Standard Real-time($0.0167/分)はMicrosoftエコシステム統合・月5時間の無料枠つきで、Teamsやビジネスアプリとの連携に向いています。

医療・専門分野向き

Amazon Transcribe Medical($0.075/分)Google Medical($0.078/分)が医療用語に特化した高精度モデルです。HIPAA準拠対応が必要な医療系アプリケーションに使用されます。

まとめ

  • 最安クラスはAssemblyAI Universal-2($0.0025/分)
  • 無料枠最厚はDeepgram($200クレジット・カード不要・無期限)
  • 多言語汎用ならOpenAI Whisper($0.006/分・99言語以上)
  • リアルタイム高精度ならDeepgram Nova-3($0.0077/分)
  • 医療特化ならAmazon Transcribe Medical / Google Medical($0.075〜$0.078/分)
  • 大量処理ならAmazon Transcribeのボリュームティアで単価を下げる戦略も有効

料金は変動することがあります。最新情報は各社公式ページをご確認のうえ、実際の用途でテストして選定してください。