Розпізнавання мовця

Розпізнавання мовця — це ідентифікація людини за характеристиками її голосу. Існує різниця між розпізнаванням мовця (ідентифікацією того, хто говорить) і розпізнаванням мовлення (розпізнаванням того, що саме було сказано). Ці два терміни часто плутають, і термін «розпізнавання мовлення» нерідко використовується для позначення обох процесів.

Ця стаття містить правописні, лексичні, граматичні, стилістичні або інші мовні помилки, які треба виправити.

Ця стаття не містить посилань на джерела. (листопад 2023)

Крім того, розрізняють автентифікацію (верифікацію) мовця — перевірку заявленої особи — та ідентифікацію мовця серед кількох можливих. І нарешті, варто відрізняти розпізнавання мовця (визначення, хто говорить) від діаризації (визначення моментів, коли саме кожен мовець говорить).

Розпізнавання мовця може спростити завдання автоматичного перекладу мовлення в системах, навчених на голосах конкретних людей, або використовуватися для перевірки автентичності особи як частина процесів безпеки.

Процес розпізнавання мовця має історію, що налічує близько чотирьох десятиліть, і використовує акустичні особливості мовлення для розрізнення окремих осіб. Ці акустичні моделі відображають як анатомічні характеристики (наприклад, розмір і форму горла чи рота), так і поведінкові особливості (голос основного тону, темп і стиль мовлення). Перевірку мовця відносять до методів поведінкової біометрії.

Remove ads

Варіанти розпізнавання акустичних систем

Узагальнити

Перспектива

Кожна система розпізнавання мовця має дві фази: реєстрації та верифікації. Під час реєстрації голос мовця записується і, як правило, ряд особливостей голосу витягується для формування голосового друку, шаблону або моделі. На етапі перевірки, зразок мови порівнюється з раніше створеним голосовим друком. Для систем ідентифікації вимова порівнюється з декількома голосовими відбитками з метою визначення найкращої відповідності. Завдяки процесу, що використовується, верифікація виконується швидше, ніж ідентифікація.

Системи розпізнавання акустичних систем діляться на дві категорії: текстово-залежні й текстово-незалежні.^[1]

Текстово-залежна категорія:

Якщо текст повинен бути однаковим для реєстрації та верифікації, це називається текстово-залежним розпізнаванням. У текстово-залежній системі підказки можуть бути або загальними для всіх акустичних систем (наприклад, загальна парольна фраза), або унікальними.

Текстово-незалежна категорія:

Текстові незалежні системи найчастіше використовуються для ідентифікації диктора, оскільки вони вимагають дуже мало. Насправді реєстрація може відбуватися без відома користувача, як у випадку для багатьох судових додатків. Так, як текстові незалежні технології не порівнюють те, що було сказано під час реєстрації й верифікації, як правило, також використовують розпізнавання мови, щоб визначити, що користувач говорить в момент аутентифікації.

У текстових незалежних системах використовуються обидва методи аналізу: акустичний і мовний.

Remove ads

Сфера застосування

Перший міжнародний патент був зареєстрований в 1983 році, виходячи з досліджень зв'язку в CSELT^[2] як основи для майбутніх телекомунікаційних послуг і поліпшення методів шумоглушіння через всю мережу.

У травні 2013 року було оголошено, що Barclays Wealth буде використовувати пасивне розпізнавання акустичних систем для перевірки справжності телефонних клієнтів протягом 30 секунд розмови.^[3]

Приватний банківський підрозділ Barclays став першим, хто застосував голосову біометрію як основний засіб для аутентифікації клієнтів.

У серпні 2014 року GoVivace Inc. почала використовувати таку нормативну акустичну систему, яка дозволила в телекомунікаційній базі клієнтів успішно шукати людину серед мільйонів носіїв, використовуючи тільки один приклад запису свого голосу.

Розпізнавання мовця також може бути використане при проведенні кримінальних розслідувань.^[4]

Remove ads

Примітки

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads