何を試しているか
VRM アバターを Electron デスクトップアプリとして常駐させ、マイク入力 + デスクトップ音声を同時に拾い、Gemini Live API のネイティブマルチモーダル経路で双方向音声対話する試作。アバターの表情アニメーションと音声応答を同期させ、「アバターと一緒に同じコンテンツを観ている」実装を狙う。
途中経過
- VOICEVOX 経由のパイプラインから Gemini Live API ネイティブ音声(A2A)に全面移行
- AudioWorklet ベースのマイク入力、16 kHz PCM へのリサンプリング、IPC 経由でメインプロセスへ受け渡し
- Live Mode 中の VAD ガード実装(ユーザー発話検出時は AI 出力をしぼる)
- デスクトップ音声 → Gemini への到達は確認済み(input transcription で確認)
残課題
- Gemini が デスクトップ音声に自発的に応答しない 挙動の根本解決
- Electron renderer 側の
appendChildnull エラーの根本原因調査 - VAD 感度 / ターン検出の最適化
位置づけ
イベント会場で YouTube 等のコンテンツをアバターと 同時視聴 するリアルタイム体験の足場として開発中。製品化計画は未確定で、本試作の知見は AI-Kata 系プロダクトの音声対話設計に還流させる想定。