【2026年最新】リアルタイム音声会話API料金比較|OpenAI gpt-realtime・Gemini Live・Deepgram




リアルタイム音声会話API料金比較

リアルタイム音声会話APIとは?STT・TTSとの違い

リアルタイム音声会話APIの定義

リアルタイム音声会話APIとは、「話す→AIが理解→AIが即座に音声で返答」という双方向の音声会話をリアルタイムで実現するAPIです。OpenAIのRealtime APIやGoogleのGemini Live APIが代表例です。

音声AIアシスタント・インタラクティブな顧客対応ボット・音声操作インターフェースなど、人間とAIが自然な会話を交わすシステムを少ないコードで構築できます。

STT・TTSとは何が違うのか

「音声認識(STT)」「音声合成(TTS)」「音声会話API」はいずれも音声を扱いますが、役割が根本的に異なります。

種類 処理の流れ 主な用途 特徴
STT(音声認識) 音声 → テキスト 文字起こし・議事録・字幕生成 一方向処理。音声ファイルをテキストに変換するだけ
TTS(音声合成) テキスト → 音声 読み上げ・ナレーション・アクセシビリティ 一方向処理。テキストを音声に変換するだけ
リアルタイム音声会話API 音声 ⇆ AI ⇆ 音声 AIアシスタント・音声ボット・カスタマーサポート 双方向・リアルタイム。STT+LLM+TTSを一体化

STTを自分で組み合わせてAI会話システムを作る場合、「STT API」「LLM API」「TTS API」を3つ連結する必要があります。それに対してリアルタイム音声会話APIはこの3つが一体化された単一のAPIエンドポイントで、低遅延・割り込み(インタラプト)対応などの機能も内包しています。

なぜ今注目されているのか

  • AIエージェントの進化:音声で指示→AIが実行→音声で報告というエージェント連携の実用化
  • 顧客対応の自動化:コールセンターやカスタマーサポートへのAI導入コスト削減
  • 自然な割り込み対応:話し途中でもユーザーが割り込める「ターンテイキング」の実現
  • マルチモーダル化:音声+映像+テキストを同時処理できるモデルの登場

リアルタイム音声会話API料金比較表(2026年3月時点)

※料金はUSD。2026年3月時点の情報です。最新情報は各社公式ページをご確認ください。

サービス/モデル 提供元 音声入力(/分) 音声出力(/分) 1分会話コスト目安 LLM込み 無料枠
Gemini 2.0 Flash Live Google $0.0011 $0.0006 約$0.0009 込み(Gemini 2.0) Preview中は無料
Gemini 2.5 Flash Native Audio Google $0.0045 $0.018 約$0.011 込み(Gemini 2.5) Preview中は無料
Gemini 2.5 Flash Live Google $0.0015 $0.00375 約$0.0026 込み(Gemini 2.5) Preview中は無料
Deepgram Voice Agent Deepgram $0.08/分〜(Standard) $0.08〜 込み(BYO LLM/TTS選択可) $200クレジット(無期限)
ElevenLabs Conversational AI ElevenLabs $0.10/分(通話時間) $0.10 込み(現在負担中) なし
gpt-realtime-mini OpenAI $0.006 $0.024 約$0.015 込み(GPT-4o系) なし
gpt-4o-mini-realtime-preview OpenAI $0.006 $0.024 約$0.015 込み(GPT-4o mini) なし
gpt-realtime / gpt-realtime-1.5 OpenAI $0.019 $0.077 約$0.048 込み(GPT-4o系) なし
gpt-4o-realtime-preview OpenAI $0.024 $0.096 約$0.060 込み(GPT-4o) なし

※1分会話コスト目安:ユーザー発話30秒+AI応答30秒の1分会話を想定して算出(OpenAI:入力600tokens/分・出力1,200tokens/分)。実際のコストは会話の比率・コンテキスト長により変動します。
※Geminiは「25トークン/秒」の音声換算レートで計算(1分=1,500トークン)。
※DeepgramはSTT+LLM+TTS込みの分単位料金。BYO LLM($0.07/分)・BYO LLM+TTS($0.05/分)でコスト削減も可能。Growthプランは各$0.01引き。
※Gemini 2.5 Flash Native Audioは高品質音声特化モデル(gemini-2.5-flash-native-audio-preview)。話し方の自然さ・感情表現に優れるが、通常のFlash Liveより約4倍高価。

現状はOpenAIが標準・Googleが追い上げ中

OpenAIが事実上の業界標準

2023年秋にOpenAIがRealtime APIを発表して以来、OpenAIがこのカテゴリのデファクトスタンダードになっています。WebSocket/WebRTCベースのオープンなプロトコル、充実したドキュメント、GPT-4oの高い品質が支持される理由です。

2026年にはgpt-realtime・gpt-realtime-1.5がリリースされ、旧世代のgpt-4o-realtime-preview(音声$40/$80/1M)からgpt-realtime(音声$32/$64/1M)へと料金が下落傾向にあります。さらにgpt-realtime-miniのような低コスト版も登場し、選択肢が広がっています。

GoogleのGemini Liveは圧倒的低価格

後発のGoogle Gemini Live APIは、料金面で圧倒的な優位性があります。Gemini 2.0 Flash Liveは1分会話あたり約$0.0009と、OpenAI gpt-realtimeの約1/53のコストです。

ただし注意点があります。コンテキストウィンドウ課金という独自の課金方式を採用しており、会話が長引くほど蓄積したトークンが毎ターン課金されるため、長時間会話では想定以上のコストになることがあります。現在はPreview段階のため、GA後に料金・仕様が変更される可能性もあります。

Deepgramはシンプルな時間課金が強み

DeepgramのVoice Agent APIは分単位のフラット課金が特徴です。Standardプランは$0.08/分(Pay As You Go)/$0.07/分(Growth)。自前LLMを持ち込む「BYO LLM」なら$0.07/分、さらにTTSも持ち込む「BYO LLM+TTS」なら$0.05/分まで下げられます。STT+LLM+TTS込みで複雑なトークン計算不要、コスト予測が立てやすいのが最大の強みです。

ElevenLabsは音声品質に強み

ElevenLabsのConversational AIは高品質な音声合成で知られ、$0.10/分(通話時間)の料金体系です。LLMコストは現在ElevenLabsが負担していますが、今後変更される可能性があります。感情豊かな音声・特定キャラクターボイスが必要なエンターテインメント・教育系アプリに強みがあります。

料金の仕組みを理解する

OpenAI Realtime APIのトークン課金

OpenAIのRealtime APIは音声トークンで課金されます。

  • 音声入力:1トークン = 100ミリ秒(600トークン/分)
  • 音声出力:1トークン = 50ミリ秒(1,200トークン/分)

例えば「gpt-realtime」で5分の会話(ユーザー発話2.5分+AI応答2.5分)を行った場合:

  • 音声入力:600 × 2.5分 × $32/1M = $0.048
  • 音声出力:1,200 × 2.5分 × $64/1M = $0.192
  • 合計:$0.24(約36円)

テキストトークン(システムプロンプト等)も別途課金されるため、実際のコストは若干高くなります。

GeminiのLive API課金の注意点

Gemini Live APIはコンテキストウィンドウ課金が特徴的で注意が必要です。会話の各ターンで「現在のターンのトークン+過去の全会話トークン」が課金されます。会話が20ターンになると、1ターン目のトークンは20回分課金されることになります。

長時間の連続会話ではコストが膨らむため、コンテキストのリセット間隔を設計段階で考慮することが重要です。

用途別おすすめ

コスト最優先・プロトタイプ開発向き

Gemini 2.0 Flash Live(Preview中は無料)が最適です。Previewの間は実質無料でテストでき、1分$0.0009という最安水準の料金でGA後も継続利用できます。コンテキスト長は短めに設計すること。

Deepgramの$200無料クレジットも魅力的です。カード不要・無期限の$200クレジットで約44時間分のVoice Agent利用が可能です。

品質・信頼性重視の本番環境向き

gpt-realtime / gpt-realtime-1.5がデファクトスタンダードです。ドキュメントの充実度・コミュニティの規模・WebRTC対応など、本番運用での安定性は業界随一です。低コスト版のgpt-realtime-mini(約$0.015/分)も登場しており、用途に応じて使い分けられます。

コスト予測を重視する業務システム向き

Deepgram Voice Agent API(Standard $0.08/分〜)がベストです。分単位のフラット料金でLLM費用込みのため、月額コストの見通しが立てやすく、企業向け用途に向いています。BYO LLM+TTSを使えば$0.05/分まで削減可能です。

音声品質・キャラクター表現重視向き

ElevenLabs Conversational AIは感情豊かな音声・複数キャラクターボイスの対応が強みです。教育コンテンツ・エンターテインメント・ブランドキャラクターを持つ音声ボット構築に向いています。

まとめ

  • 最安コスト:Gemini 2.0 Flash Live(約$0.0009/分会話)/Preview中は無料
  • ミニモデルで低コスト:gpt-realtime-mini・gpt-4o-mini-realtime-preview(約$0.015/分)
  • 業界標準・信頼性:gpt-realtime / gpt-realtime-1.5(約$0.048/分会話)
  • コスト予測しやすい:Deepgram Voice Agent($0.08/分〜・LLM込み・BYO LLM+TTSで$0.05/分まで削減可)
  • 音声品質重視:ElevenLabs Conversational AI($0.10/分)
  • OpenAI以外の選択肢は拡大中:Googleが低価格路線で追い上げており、今後さらに選択肢が増える見込み

リアルタイム音声会話APIはSTT/TTSを個別に組み合わせる従来手法より開発工数が大幅に少なく、割り込み処理・低遅延応答などの品質も高水準で提供されます。ユースケースと予算に応じて最適なサービスを選んでください。料金は変動することがあります。最新情報は各社公式ページをご確認のうえ、実際の用途でテストして選定してください。