Лучшие вопросы
Таймлайн
Чат
Перспективы

Voice Activity Detection

Из Википедии, свободной энциклопедии

Remove ads

VAD (англ. Voice Activity Detection), а также Silence Suppression (с англ.«подавление тишины») — обнаружение голосовой активности во входном акустическом сигнале для отделения активной речи от фонового шума или тишины. Голос, интерпретированный как шум, может порождать «вырезки» из разговора (chipping). Фон, интерпретируемый как голос, приводит к снижению эффективности компрессии (например, в DTX).

Remove ads

Преимущества и использование

При оцифровке голоса, фрагменты сигнала, классифицируемые как активная речь, могут в дальнейшем кодироваться и сжиматься любым аудиокодеком (например, CELP) при использовании в ПО для различения в кодируемой речи человеческого голоса и фонового шума.

Использование механизма VAD (или Silence Suppression) позволяет экономить на передаче данных по каналу связи, так как перерыв в речи (определяется по уровню сигнала) не оцифровывается и не кодируется и таким образом «пустые» пакеты с тишиной не передаются по сети. Это очень важно для пакетной передачи (каковой является передача в сетях TCP/IP), так как кроме самих данных каждый протокол всех уровней модели OSI (транспортный, сетевой и т. д.) дописывает свою собственную служебную информацию в каждый пакет с данными. В результате размер пакета значительно вырастает. Таким образом исключение «пустых» пакетов с мелкими шумами — простой способ экономить трафик и, как следствие, увеличить пропускную способность канала. По этой причине механизм VAD довольно часто применяется наряду с различными кодеками эффективного сжатия в IP-телефонии.

Remove ads

Недостатки и метод их устранения

Проблема VAD в том, что в результате подавления тишины (на самом деле звука низкого уровня) слушающий не слышит вообще никаких опознавательных сигналов (дыхания, сопения и других мелких шумов, сопровождающих живую речь). Это создаёт некоторые проблемы, ведь в обычной разговорной речи слышно всё. Отсутствие привычного шума во время воспроизведения голоса вызывает неприятные ощущения и снижает уровень восприятия, понимания.

Для решения данной проблемы на стороне второго абонента (или слушателя) может применяться эмуляция сопроводительных звуков, получившая название генерации комфортного шума (CNG) (обратный процесс для VAD).

Remove ads

См. также

Ссылки

Remove ads
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads