kotodama — リアルタイム日本語音声 AI 比較研究 | LAB

何を試したか

VrmAssistant / AI-KATA S2P / バーチャルほっとライン / NICE CAMERA / アンビエントペルソナ実験など、自社プロダクト群の 共通音声会話エンジン候補 を 1 つに収斂させるため、主要なリアルタイム音声 AI API を実機ベンチマーク。対象は Gemini 3.1 Flash Live / OpenAI gpt-realtime-mini / Hume EVI 4-mini / Gemini 2.5 Flash native audio（Anthropic Claude / Qwen3.5-Omni は除外、理由は後述）。

評価軸は (1) 日本語 TTS 品質 (2) Time-to-First-Audio (TTFA) (3) ターン継続安定性 (4) 感情検出 (5) コストの 5 項目。

何が分かったか

**「ネイティブマルチモーダル（A2A、単一モデル方式）」**でないと TTS 段階で遅延が乗る、という当初想定は妥当
ただし Gemini Live API はネイティブマルチモーダルで、過去に「パイプラインだから遅い」と判断したのは誤りだった（VrmAssistant での遅さは VAD の問題）
Gemini 3.1 Flash Live が体感最速、13 ターン安定継続、日本語 TTS も悪くなく、コスト最安
OpenAI gpt-realtime-mini は日本語ネイティブに最も近いが、TTFA は 1〜2.6 秒台で 3.1 比劣る
Hume EVI 4-mini は TTFA 29 ms と異常に速いが、日本語 TTS が外国人アクセントで実用不可
「日本語品質 + 低レイテンシ + 感情検出」を 同時に満たす API は存在しない
折衷策として Gemini 音声 + Hume Expression Measurement の並行処理 が理論的選択肢

知見の応用先

本研究の結論を踏まえ、アンビエントペルソナ実験の対話エンジンを Gemini 2.5 → Gemini 3.1 Flash Live に切替 する方針を確定。今後の自社プロダクトの音声対話レイヤーは原則として Gemini 3.1 系をデフォルト採用とし、感情駆動が必要な実験には Hume Expression Measurement を別レーンで併用する。

用語解説

Gemini Live API とは

Gemini Live API とは、Google の Gemini モデル群で提供されているリアルタイム双方向音声・動画ストリーミング API です。低レイテンシで音声入力に応答でき、AI アバターやリアルタイム接客アプリの音声対話レイヤーとして採用されています。本研究では複数モデル比較のうち、日本語品質とレイテンシの両面で最有力候補のひとつとして評価されました。

OpenAI Realtime API とは

OpenAI Realtime API とは、OpenAI が提供する音声と関数呼び出しを統合したリアルタイム対話 API です。WebSocket または WebRTC 経由で音声を入出力し、関数呼び出しで外部システムと連動できます。本研究では gpt-realtime モデルを Gemini Live と並んで比較対象として実機評価しました。

Hume EVI とは

Hume EVI（Empathic Voice Interface）とは、Hume AI 社が提供する、対話相手の感情を音声から推定し応答に反映するリアルタイム音声 AI 基盤です。感情駆動の対話設計が必要な領域では他社 API と差別化された機能を持ちます。本研究では日本語対話の感情検出精度も検証対象に含めました。

制限・公開範囲

ベンチマークの結論と判断材料は本エントリに記載しているが、テストコード本体・API キー・各社利用規約に触れる詳細スコアは公開しない。研究成果としての知見のみを Lab に置く。