Топ питань
Часова шкала
Чат
Перспективи

Розпізнавання мовця

З Вікіпедії, вільної енциклопедії

Remove ads

Розпізнавання мовця — це ідентифікація людини за характеристиками її голосу. Існує різниця між розпізнаванням мовця (ідентифікацією того, хто говорить) і розпізнаванням мовлення (розпізнаванням того, що саме було сказано). Ці два терміни часто плутають, і термін «розпізнавання мовлення» нерідко використовується для позначення обох процесів.

Крім того, розрізняють автентифікацію (верифікацію) мовця — перевірку заявленої особи — та ідентифікацію мовця серед кількох можливих. І нарешті, варто відрізняти розпізнавання мовця (визначення, хто говорить) від діаризації (визначення моментів, коли саме кожен мовець говорить).

Розпізнавання мовця може спростити завдання автоматичного перекладу мовлення в системах, навчених на голосах конкретних людей, або використовуватися для перевірки автентичності особи як частина процесів безпеки.

Процес розпізнавання мовця має історію, що налічує близько чотирьох десятиліть, і використовує акустичні особливості мовлення для розрізнення окремих осіб. Ці акустичні моделі відображають як анатомічні характеристики (наприклад, розмір і форму горла чи рота), так і поведінкові особливості (голос основного тону, темп і стиль мовлення). Перевірку мовця відносять до методів поведінкової біометрії.

Remove ads

Варіанти розпізнавання акустичних систем

Узагальнити
Перспектива

Кожна система розпізнавання мовця має дві фази: реєстрації та верифікації. Під час реєстрації голос мовця записується і, як правило, ряд особливостей голосу витягується для формування голосового друку, шаблону або моделі. На етапі перевірки, зразок мови порівнюється з раніше створеним голосовим друком. Для систем ідентифікації вимова порівнюється з декількома голосовими відбитками з метою визначення найкращої відповідності. Завдяки процесу, що використовується, верифікація виконується швидше, ніж ідентифікація.

Системи розпізнавання акустичних систем діляться на дві категорії: текстово-залежні й текстово-незалежні.[1]

Текстово-залежна категорія:

Якщо текст повинен бути однаковим для реєстрації та верифікації, це називається текстово-залежним розпізнаванням. У текстово-залежній системі підказки можуть бути або загальними для всіх акустичних систем (наприклад, загальна парольна фраза), або унікальними.

Текстово-незалежна категорія:

Текстові незалежні системи найчастіше використовуються для ідентифікації диктора, оскільки вони вимагають дуже мало. Насправді реєстрація може відбуватися без відома користувача, як у випадку для багатьох судових додатків. Так, як текстові незалежні технології не порівнюють те, що було сказано під час реєстрації й верифікації, як правило, також використовують розпізнавання мови, щоб визначити, що користувач говорить в момент аутентифікації.

У текстових незалежних системах використовуються обидва методи аналізу: акустичний і мовний.

Remove ads

Сфера застосування

Перший міжнародний патент був зареєстрований в 1983 році, виходячи з досліджень зв'язку в CSELT[2] як основи для майбутніх телекомунікаційних послуг і поліпшення методів шумоглушіння через всю мережу.

У травні 2013 року було оголошено, що Barclays Wealth буде використовувати пасивне розпізнавання акустичних систем для перевірки справжності телефонних клієнтів протягом 30 секунд розмови.[3]

Приватний банківський підрозділ Barclays став першим, хто застосував голосову біометрію як основний засіб для аутентифікації клієнтів.

У серпні 2014 року GoVivace Inc. почала використовувати таку нормативну акустичну систему, яка дозволила в телекомунікаційній базі клієнтів успішно шукати людину серед мільйонів носіїв, використовуючи тільки один приклад запису свого голосу.

Розпізнавання мовця також може бути використане при проведенні кримінальних розслідувань.[4]

Remove ads

Примітки

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads