【2026年最新】音声認識(STT)API料金比較|OpenAI・Google・Deepgram・AssemblyAI




はじめに

音声認識(STT)APIとは?

音声認識(STT:Speech-to-Text)APIとは、音声ファイルや音声ストリームを送ると、AIが自動でテキストに変換して返してくれるサービスです。議事録の自動生成・コールセンターの文字起こし・音声コマンド処理などをプログラムから実現できます。

AIエージェントへの音声入力・自動字幕生成・多言語対応アプリなど、幅広い用途があります。料金はほとんどが「1分あたり課金」で、精度・速度・特化機能(医療・話者識別など)によって大きく差があります。

リアルタイム vs バッチ処理

  • リアルタイム(ストリーミング):会話中に逐次テキスト化。コール対応・音声アシスタント向き。バッチより割高
  • バッチ処理:録音済み音声を後から変換。議事録・字幕生成向き。リアルタイムより安い傾向

この表の見方

  • 料金(1分あたり):音声1分あたりの変換コスト(USD)。トークン課金モデルは目安値を表示
  • 精度・特徴:多言語対応・医療特化・話者識別(Diarization)などの主な特徴
  • 無料枠:月次の無料利用量

音声認識(STT)API料金比較表(2026年3月時点)

※料金はUSD。2026年3月時点の情報です。最新情報は各社公式ページをご確認ください。

モデル名 提供元 料金(1分あたり) 精度・特徴 無料枠
gpt-4o-mini-transcribe OpenAI $0.003(目安) 高速・低コスト なし
gpt-4o-transcribe $0.006(目安) 高精度・多言語 なし
gpt-4o-transcribe-diarize $0.006(目安) 高精度+話者識別付き なし
Google V2 Dynamic Batch Google Cloud $0.003 バッチ処理・低コスト なし
Google V2 Standard $0.016(〜500K分) 高精度・多言語・Chirp対応 なし
Google Medical $0.078 医療特化 月60分
Deepgram Flux Deepgram $0.0077 最新モデル $200クレジット(無期限)
Deepgram Nova-3 $0.0077 最高精度・ノイズ耐性 $200クレジット(共通)
Deepgram Nova-3 Multilingual $0.0092 最高精度・多言語 $200クレジット(共通)
AssemblyAI Universal-2 AssemblyAI $0.0025 高精度・99言語 $50クレジット
AssemblyAI Universal-3 Pro $0.0035 最高精度・6言語 $50クレジット(共通)
AssemblyAI Universal-3 Pro Streaming $0.0075 リアルタイム・最高精度 $50クレジット(共通)
Azure Batch STT Microsoft Azure $0.003($0.18/時間) 標準精度・バッチ向き 月5時間分(F0ティア)
Azure Standard Real-time $0.0167($1/時間) 標準精度・リアルタイム 月5時間分(F0ティア)
Amazon Transcribe Standard Amazon $0.024(〜250K分) 標準精度・話者識別オプション 初12ヶ月 月60分
Amazon Transcribe Medical $0.075 医療特化・高精度 なし

※gpt-4o-mini-transcribe・gpt-4o-transcribe・gpt-4o-transcribe-diarizeはトークン課金。料金は1分あたりの目安値。
※Google V2 Standardはボリューム割引あり(500K〜1M分:$0.010、1M〜2M分:$0.008、2M分超:$0.004)。
※Azure Batch STTは$0.18/時間、Azure Standard Real-timeは$1/時間。1分あたりに換算して表示。
※Deepgramはクレジットカード不要で$200の無料クレジット(無期限)を提供。
※Amazon Transcribeはボリュームティア制(250K分超で$0.015、4M分超で$0.0102)。大量処理で単価が下がる。
※AssemblyAIのSpeaker Diarization(話者識別)は$0.02/時間の追加料金。

API未公開・要確認のサービス

  • Whisper OSS(セルフホスト):OpenAI公開のモデルをGPUサーバーで自前運用。APIコスト0だがインフラコスト・運用が必要。
  • Azure Custom Speech:カスタム語彙・話者適応トレーニング対応。料金はカスタム見積もり。

用途別おすすめ

コスト重視・大量文字起こし向き

AssemblyAI Universal-2($0.0025/分)が最安クラスです。1時間の音声で$0.15と非常に安く、議事録生成・字幕作成など大量バッチ処理に最適です。$50の無料クレジットで約333時間分の文字起こしをテストできます。

Google V2 Dynamic Batch($0.003/分)gpt-4o-mini-transcribe(約$0.003/分)も同価格帯の低コスト選択肢です。

多言語・汎用精度向き

gpt-4o-transcribe(約$0.006/分)はOpenAIエコシステムとの統合がシームレスで、多言語対応の高品質文字起こしが可能です。話者識別が必要ならgpt-4o-transcribe-diarize(同価格)が最適です。

Deepgram Nova-3($0.0077/分)は最高精度を誇り、$200の無料クレジット(無期限・カード不要)が業界最厚の無料枠です。

リアルタイム・コール対応向き

AssemblyAI Universal-3 Pro Streaming($0.0075/分)はリアルタイム処理に特化した最高精度モデルです。Prompting機能で転写動作を自然言語で制御できます。

Deepgram Nova-3はリアルタイムストリーミングでも低遅延・高精度で動作します。ノイズ耐性が高く、コールセンター環境での利用に強みがあります。

医療・専門分野向き

Amazon Transcribe Medical($0.075/分)Google Medical($0.078/分・月60分無料)が医療用語に特化した高精度モデルです。HIPAA準拠対応が必要な医療系アプリケーションに使用されます。

まとめ

  • 最安クラスはAssemblyAI Universal-2($0.0025/分)
  • 無料枠最厚はDeepgram($200クレジット・カード不要・無期限)
  • OpenAI統合ならgpt-4o-transcribe($0.006/分)・話者識別ならgpt-4o-transcribe-diarize
  • リアルタイム高精度ならDeepgram Nova-3($0.0077/分)またはAssemblyAI Universal-3 Pro Streaming($0.0075/分)
  • 医療特化ならAmazon Transcribe Medical / Google Medical($0.075〜$0.078/分)
  • 大量処理ならAmazon TranscribeのボリュームティアまたはGoogle V2 Dynamic Batch($0.003/分)で単価を下げる戦略も有効

料金は変動することがあります。最新情報は各社公式ページをご確認のうえ、実際の用途でテストして選定してください。