콘텐츠로 이동

음성 에이전트

Voice Agent(Bidi Agent)는 실시간 양방향 음성 대화를 제공하는 에이전트입니다. WebSocket을 통해 브라우저와 오디오를 스트리밍하며, Amazon Nova Sonic 모델을 사용합니다.

브라우저 (Web Audio API)
│ WebSocket
AgentCore WebSocket Proxy
│ WebSocket
Voice Agent Container (FastAPI + Uvicorn)
│ Strands BidiModel
Amazon Nova Sonic

Amazon Nova Sonic을 사용합니다. AWS 내부 네트워크를 통해 동작하므로 별도 API 키 없이 낮은 지연시간으로 음성 대화가 가능합니다.

항목
모델Amazon Nova Sonic
API 키불필요 (IAM Role)
지연시간낮음 (AWS 내부 네트워크)
음성tiffany, matthew

이벤트설명
audioPCM 오디오 (16kHz, 1채널)
text텍스트 입력
pingKeep-alive (pong 응답)
stop세션 종료
이벤트설명
audio응답 오디오 (sample rate 포함)
transcript텍스트 (role, is_final 포함)
tool_use도구 호출 알림
tool_result도구 실행 결과
connection_start연결 성공
response_start / response_complete응답 수명 주기
interruption사용자가 발화 중단
error오류 메시지
timeout세션 타임아웃 (기본 900초)

Voice Agent도 MCP 도구를 사용할 수 있습니다.

도구설명
getDateAndTimeTool지정 타임존의 현재 시간 조회
DuckDuckGo search웹 검색
DuckDuckGo fetch_content웹 페이지 전문 조회
AgentCore MCP 도구문서 검색, 그래프 탐색 등

브라우저의 타임존을 기반으로 선호 언어를 결정합니다.

타임존언어
Asia/Seoul한국어
Asia/Tokyo일본어
Asia/Shanghai중국어
Europe/Paris프랑스어
Europe/Berlin독일어
America/Sao_Paulo포르투갈어
기타영어

대화 기록(transcript)은 S3에 저장됩니다.