Streaming Voice Stack

ASR, LLM и TTS в одном живом цикле ответа

Браузер шлет PCM-стрим в gateway, VAD отслеживает тишину, ASR собирает partial и final транскрипт, LLM отвечает токенами, а TTS возвращает озвученные сегменты обратно в UI.

offline session:

Лучше тестировать в наушниках, чтобы озвучка не попадала обратно в микрофон.

Voice Activity

Signal Level

dBFS

Noise Floor

dBFS

Transcript

idle
Нажмите Start и скажите что-нибудь.

Assistant

waiting
Ответ появится здесь по мере генерации.

Runtime Log