Streaming Voice Stack

ASR, LLM и TTS в одном живом цикле ответа

Браузер шлет PCM-стрим в gateway, VAD отслеживает тишину, ASR собирает partial и final транскрипт, LLM отвечает токенами, а TTS возвращает озвученные сегменты обратно в UI.

offline session: —

Лучше тестировать в наушниках, чтобы озвучка не попадала обратно в микрофон.

Voice Activity

—

Signal Level

— dBFS

Noise Floor

— dBFS

Transcript

idle

Нажмите Start и скажите что-нибудь.

Assistant

waiting

Ответ появится здесь по мере генерации.

ASR, LLM и TTS в одном живом цикле ответа

Transcript

Assistant

Runtime Log