何を試したか
VrmAssistant / AI-KATA S2P / バーチャルほっとライン / NICE CAMERA / アンビエントペルソナ実験など、自社プロダクト群の 共通音声会話エンジン候補 を 1 つに収斂させるため、主要なリアルタイム音声 AI API を実機ベンチマーク。対象は Gemini 3.1 Flash Live / OpenAI gpt-realtime-mini / Hume EVI 4-mini / Gemini 2.5 Flash native audio(Anthropic Claude / Qwen3.5-Omni は除外、理由は後述)。
評価軸は (1) 日本語 TTS 品質 (2) Time-to-First-Audio (TTFA) (3) ターン継続安定性 (4) 感情検出 (5) コスト の 5 項目。
何が分かったか
- **「ネイティブマルチモーダル(A2A、単一モデル方式)」**でないと TTS 段階で遅延が乗る、という当初想定は妥当
- ただし Gemini Live API はネイティブマルチモーダルで、過去に「パイプラインだから遅い」と判断したのは誤りだった(VrmAssistant での遅さは VAD の問題)
- Gemini 3.1 Flash Live が体感最速、13 ターン安定継続、日本語 TTS も悪くなく、コスト最安
- OpenAI gpt-realtime-mini は日本語ネイティブに最も近いが、TTFA は 1〜2.6 秒台で 3.1 比劣る
- Hume EVI 4-mini は TTFA 29 ms と異常に速いが、日本語 TTS が外国人アクセントで実用不可
- 「日本語品質 + 低レイテンシ + 感情検出」を 同時に満たす API は存在しない
- 折衷策として Gemini 音声 + Hume Expression Measurement の並行処理 が理論的選択肢
知見の応用先
本研究の結論を踏まえ、アンビエントペルソナ実験の対話エンジンを Gemini 2.5 → Gemini 3.1 Flash Live に切替 する方針を確定。今後の自社プロダクトの音声対話レイヤーは原則として Gemini 3.1 系をデフォルト採用とし、感情駆動が必要な実験には Hume Expression Measurement を別レーンで併用する。
制限・公開範囲
ベンチマークの結論と判断材料は本エントリに記載しているが、テストコード本体・API キー・各社利用規約に触れる詳細スコアは公開しない。研究成果としての知見のみを Lab に置く。