コンテンツにスキップ

音声エージェント

Voice Agent(Bidi Agent)は、リアルタイム双方向音声会話を提供するエージェントです。WebSocketを通じてブラウザとオーディオをストリーミングし、Amazon Nova Sonicモデルを使用します。

ブラウザ(Web Audio API)
│ WebSocket
AgentCore WebSocket Proxy
│ WebSocket
Voice Agentコンテナ(FastAPI + Uvicorn)
│ Strands BidiModel
Amazon Nova Sonic

Amazon Nova Sonicを使用します。AWS内部ネットワークを通じて動作するため、別途APIキーなしで低レイテンシの音声会話が可能です。

項目
モデルAmazon Nova Sonic
APIキー不要(IAM Role)
レイテンシ低(AWS内部ネットワーク)
音声tiffany、matthew

イベント説明
audioPCMオーディオ(16kHz、1チャンネル)
textテキスト入力
pingKeep-alive(pongで応答)
stopセッション終了
イベント説明
audio応答オーディオ(サンプルレート付き)
transcriptテキスト(role、is_final付き)
tool_useツール呼び出し通知
tool_resultツール実行結果
connection_start接続成功
response_start / response_complete応答ライフサイクル
interruptionユーザーが発話を中断
errorエラーメッセージ
timeoutセッションタイムアウト(デフォルト900秒)

Voice AgentもMCPツールを使用できます。

ツール説明
getDateAndTimeTool指定タイムゾーンの現在時刻を取得
DuckDuckGo searchWeb検索
DuckDuckGo fetch_contentWebページ全文取得
AgentCore MCPツール文書検索、グラフ探索など

ブラウザのタイムゾーンに基づいて優先言語を決定します。

タイムゾーン言語
Asia/Seoul韓国語
Asia/Tokyo日本語
Asia/Shanghai中国語
Europe/Parisフランス語
Europe/Berlinドイツ語
America/Sao_Pauloポルトガル語
その他英語

会話記録(トランスクリプト)はS3に保存されます。