Розпізнавання емоцій

Розпізнавання емоцій — це процес виявлення людських емоцій. Люди суттєво відрізняються між собою за здатністю точно розпізнавати емоції інших людей. Використання технологій, які допомагають людям з розпізнаванням емоцій, є відносно новою сферою досліджень. Як правило, технологія працює найкраще, якщо вона використовує кілька способів у різних контекстах. На сьогодні найбільша робота була проведена з автоматизації розпізнавання виразів обличчя^[en] з відео, мовленнєвих виразів із аудіо, письмових виразів із тексту та фізіології, виміряної за допомогою переносних пристроїв.

Remove ads

Люди

Узагальнити

Перспектива

Люди демонструють велику мінливість у своїх здібностях розпізнавати емоції. Ключовим моментом, який слід пам'ятати, вивчаючи автоматичне розпізнавання емоцій, є кілька джерел «фундаментальної істини» або правди про те, що таке справжня емоція. Припустимо, ми намагаємося розпізнати емоції Алекса. Одне з джерел: «Що більшість людей скаже, що відчуває Алекс?» У цьому випадку «правда» може не відповідати тому, що відчуває Алекс, але може відповідати тому, що більшість людей скаже, що виглядає так, як відчуває Алекс. Наприклад, Алекс може бути сумним, але він широко посміхається, а потім більшість людей кажуть, що він виглядає щасливим. Якщо автоматизований метод досягає тих же результатів, що й група спостерігачів, його можна вважати точним, навіть якщо він насправді не вимірює те, що Алекс справді відчуває. Інше джерело «правди» — запитати Алекса, що він насправді відчуває. Це працює, якщо Алекс добре відчуває свій внутрішній стан, хоче розповісти вам, що це таке, і вміє точно передати це словами чи цифрами. Однак деякі люди погано відчувають свої внутрішні відчуття або не можуть точно передати їх словами й цифрами. Взагалі, щоб дізнатися правду про те, яка емоція насправді присутня, може знадобитися певна робота, вона може змінюватися залежно від обраних критеріїв і зазвичай вимагає підтримки певного рівня невизначеності.

Remove ads

Машинний

Узагальнити

Перспектива

Десятиліттями наукових досліджень ведуться розробка та оцінка методів автоматизованого розпізнавання емоцій. Зараз існує велика література, в якій пропонуються й оцінюються сотні різних методів, що використовують методи з різних областей, таких як обробка сигналів, машинне навчання, комп'ютерний зір та обробка мовлення^[en] . Для інтерпретації емоцій можуть використовуватися різні методології та техніки, наприклад байєсівські мережі^[1], моделі гаусової суміші^[en] ^[2] та приховані моделі Маркова^[3] та глибокі нейронні мережі.^[4]

Підходи

Точність розпізнавання емоцій зазвичай покращується, коли воно поєднує аналіз людських виразів із мультимодальних форм, таких як тексти, фізіологія, аудіо чи відео.^[5] Різні типи емоцій виявляються завдяки інтеграції інформації з виразів обличчя, рухів тіла та жестів^[en], а також мови.^[6] Кажуть, що ця технологія сприяє появі так званого емоційного або емоційного Інтернету^[en].^[7]

Теперішні підходи до розпізнавання емоцій для класифікації певних типів емоцій можна загалом розділити на три основні категорії: методи, засновані на знаннях, статистичні методи та гібридні підходи.^[8]

Методики, засновані на знаннях

Техніки, засновані на знаннях (іноді їх називають методиками, заснованими на лексиці), використовують знання предметної області та семантичні та синтаксичні характеристики мови для виявлення певних типів емоцій. У цьому підході зазвичай використовуються ресурси, засновані на знаннях, під час процесу класифікації емоцій, такі як WordNet, SenticNet,^[9] ConceptNet^[en] і EmotiNet^[10], щоб назвати лише деякі.^[11] Однією з переваг цього підходу є доступність та економічність, зумовлені великою доступністю таких баз знань.^[8] Обмеженням цієї техніки, з іншого боку, є її нездатність обробляти концептуальні нюанси та складні лінгвістичні правила.^[8]

Методи, засновані на знаннях, можна в основному розділити на дві категорії: підходи, засновані на словнику та на основі корпусу. Підходи, засновані на словнику, знаходять у словнику початкові слова думки чи емоції та шукають їх синоніми й антоніми, щоб розширити початковий список думок чи емоцій.^[12] З іншого боку, підходи, засновані на корпусі, починаються з початкового списку слів думок або емоцій і розширюють базу даних шляхом пошуку інших слів із контекстно-специфічними характеристиками у великому корпусі.^[12] Хоча підходи, засновані на корпусі, враховують контекст, їх ефективність все ще різниться в різних областях, оскільки слово в одному домені може мати різну орієнтацію в іншому домені.^[13]

Статистичні методи

Статистичні методи зазвичай передбачають використання різних контрольованих алгоритмів машинного навчання, в яких великий набір анотованих даних подається в алгоритми, щоб система вивчала та передбачала відповідні типи емоцій.^[8] Алгоритми машинного навчання, як правило, забезпечують більш розумну точність класифікації у порівнянні іншими підходами, але однією з проблем у досягненні кращих результатів у процесі класифікації є необхідність мати достатньо великий навчальний набір.^[8]

Деякі з найбільш часто використовуваних алгоритмів машинного навчання включають опорні векторні машини (SVM), наївні байєсівські та максимальні ентропії.^[14] Глибоке навчання, яке належить до групи некерованого машинного навчання, також широко використовується для розпізнавання емоцій.^[15]^[16]^[17] Добре відомі алгоритми глибокого навчання включають різні архітектури штучної нейронної мережі (ANN), такі як згортка нейронна мережа (CNN), довготривала короткочасна пам'ять (LSTM) і машина екстремального навчання (ELM).^[14] Популярність підходів глибокого навчання в області розпізнавання емоцій може бути пов'язана головним чином з його успіхом у пов'язаних додатках, таких як комп'ютерний зір, розпізнавання мовлення та обробка природної мови (NLP).^[14]

Гібридні підходи

Гібридні підходи до розпізнавання емоцій, по суті, є комбінацією методів, заснованих на знаннях, і статистичних методів, які використовують додаткові характеристики обох методів.^[8] Деякі з робіт, у яких застосовано сукупність керованих знаннями лінгвістичних елементів і статистичних методів, включають септичні обчислення та iFeel, обидві з яких використовують ресурс на основі знань на рівні концепції SenticNet.^[18]^[19] Роль таких ресурсів на основі знань у реалізації гібридних підходів дуже важлива в процесі класифікації емоцій.^[11] Оскільки гібридні методи отримують переваги як підходів, що ґрунтуються на знаннях, так і статистичних підходів, вони, як правило, мають кращу ефективність класифікації, ніж використання методів, заснованих на знаннях або статистичних, незалежно. Недоліком використання гібридних методів є складність обчислень під час процесу класифікації.^[11]

Набори даних

Дані є невіддільною частиною наявних підходів до розпізнавання емоцій, і в більшості випадків отримати анотовані дані, необхідні для навчання алгоритмів машинного навчання, є складним завданням.^[12] Для завдання класифікації різних типів емоцій із мультимодальних джерел у вигляді текстів, аудіо, відео чи фізіологічних сигналів доступні такі набори даних:

HUMAINE: надає природні кліпи зі словами емоцій та мітками контексту в різних модальностях^[20]
База даних Белфаста: надає кліпи з широким спектром емоцій з телевізійних програм та записів інтерв'ю^[21]
SEMAINE: забезпечує аудіовізуальні записи між людиною та віртуальним агентом і містить анотації емоцій, такі як гнів, щастя, страх, огида, смуток, презирство та розвага^[22]
IEMOCAP: забезпечує записи діадичних сеансів між акторами та містить анотації емоцій, такі як щастя, гнів, смуток, розчарування та нейтральний стан^[23]
ІНТЕРФЕЙС: забезпечує аудіовізуальні записи суб'єктів семи національностей та містить анотації емоцій, такі як щастя, гнів, смуток, здивування, огида та страх^[24]
DEAP: забезпечує електроенцефалографію (ЕЕГ), електрокардіографію (ЕКГ) та відеозаписи обличчя, а також анотації емоцій щодо валентності, збудження та домінування людей, які дивляться кліпи^[25]
DREAMER: забезпечує записи електроенцефалографії (ЕЕГ) та електрокардіографії (ЕКГ), а також анотації емоцій щодо валентності, збудження та домінування людей, які дивляться фільми^[26]
MELD: це багатосторонній набір даних для розмови, де кожне висловлювання позначено емоціями та почуттями. MELD^[27] забезпечує розмови у форматі відео і, отже, підходить для мультимодального^[en] розпізнавання емоцій та аналізу настроїв. MELD корисний для мультимодального аналізу настроїв^[en] і розпізнавання емоцій, систем діалогу та розпізнавання емоцій у розмовах^[en] .^[28]
MuSe: забезпечує аудіовізуальні записи природних взаємодій між людиною та об'єктом.^[29] Він має дискретні й безперервні анотації емоцій з точки зору валентності, збудження та надійності, а також теми мовлення, корисні для мультимодального аналізу настроїв^[en] та розпізнавання емоцій.
UIT-VSMEC: це стандартний в'єтнамський корпус емоцій у соціальних мережах (UIT-VSMEC) з приблизно 6927 анотованими людьми речень із шістьма мітками емоцій, що сприяє дослідженню розпізнавання емоцій у в'єтнамській мові, яка є малоресурсною мовою в обробці природної мови (NLP).^[30]
BED: забезпечує записи електроенцефалографії (ЕЕГ), а також анотації емоцій з точки зору валентності та збудження людей, які переглядають зображення. Він також включає записи електроенцефалографії (ЕЕГ) людей, які зазнали впливу різних подразників (SSVEP^[en] , відпочинок із закритими очима, відпочинок з відкритими очима, когнітивні завдання) для завдання біометричних даних на основі ЕЕГ.^[31]

Додатки

Розпізнавання емоцій використовується в суспільстві з різних причин. Affectiva^[en], що виникла з Массачусетського технологічного інституту, надає програмне забезпечення для штучного інтелекту, яке робить його більш ефективним для виконання завдань, які раніше виконували люди вручну, в основному для збору інформації про вираз обличчя та голос, пов'язану з конкретними контекстами, де глядачі погодилися поділитися цією інформацією. Наприклад, замість того, щоб заповнювати довге опитування про те, як ви себе почуваєте під час перегляду навчального відео чи реклами, ви можете погодитися на те, щоб камера спостерігала за вашим обличчям і слухала, що ви говорите, і відзначати, під час яких частин досвіду ви показували такі вирази, як нудьга, інтерес, розгубленість або посмішка. (Зауважте, що це не означає, що це читає ваші найпотаємніші почуття — це лише те, що ви висловлюєте зовні.) Інші види використання Affectiva^[en] містять в собі допомогу дітям з аутизмом, допомогу сліпим людям читати вирази обличчя, допомогу роботам взаємодіяти більш розумно з людьми та моніторинг ознак уваги під час водіння, щоб підвищити безпеку водія.^[32]

Патент, поданий Snapchat у 2015 році, описує метод вилучення даних про натовпи на публічних заходах шляхом виконання алгоритмічного розпізнавання емоцій на селфі користувачів із географічними тегами.^[33]

Emotient була стартап-компанією, яка застосовувала розпізнавання емоцій до читання нахмурених, посмішок та інших виразів на обличчях, а саме штучний інтелект, щоб передбачати «ставлення та дії на основі виразів обличчя».^[34] Apple купила Emotient у 2016 році і використовує технологію розпізнавання емоцій для підвищення емоційного інтелекту своїх продуктів.^[34]

nViso забезпечує розпізнавання емоцій у режимі реального часу для веб та мобільних додатків через API в режимі реального часу.^[35] Visage Technologies AB пропонує оцінку емоцій як частину свого Visage SDK^[en] для маркетингових і наукових досліджень та подібних цілей.^[36]

Eyeris — це компанія з розпізнавання емоцій, яка співпрацює з виробниками вбудованих систем, включаючи виробників автомобілів і компаній, що працюють у соціальних мережах, над інтеграцією свого програмного забезпечення для аналізу облич і розпізнавання емоцій; а також із творцями відеоконтенту, щоб допомогти їм оцінити ефективність їх короткого та довгої відеореклами.^[37]^[38]

Також існує багато продуктів для об'єднання інформації з емоцій, переданих в Інтернеті, в тому числі за допомогою натискання кнопки «подобається» та кількості позитивних і негативних фраз у тексті, а розпізнавання афектів все частіше використовується в деяких видах ігор і віртуальної реальності, як для навчальних цілей, так і для надати гравцям більш природний контроль над своїми соціальними аватарами.

Remove ads

Підполя розпізнавання емоцій

Узагальнити

Перспектива

Розпізнавання емоцій, ймовірно, досягне найкращого результату, якщо застосовує кілька способів^[en], поєднуючи різні об'єкти, включаючи текст (розмову), аудіо, відео та фізіологію для виявлення емоцій.

Розпізнавання емоцій у тексті

Текстові дані є сприятливим об'єктом дослідження для розпізнавання емоцій, коли вони безплатні та доступні скрізь у житті людини. У порівнянні з іншими типами даних, зберігання текстових даних легше і легко стискається до найкращої продуктивності через часте повторення слів і символів у мовах. Емоції можна витягти з двох основних текстових форм: письмових текстів і розмов (діалогів).^[39] Для письмових текстів багато вчених зосереджуються на роботі з рівнем речень, щоб витягти «слова/фрази», що представляють емоції.^[40]^[41]

Розпізнавання емоцій в аудіо

На відміну від розпізнавання емоцій у тексті, голосові сигнали використовуються для розпізнавання для вилучення емоцій з аудіо^[en].^[42]

Розпізнавання емоцій у відео

Відеодані — це комбінація аудіоданих, даних зображень і іноді текстів (у разі субтитрів^[43]).

Розпізнавання емоцій у розмові

Розпізнавання емоцій у розмові^[en] (ERC) витягує думки між учасниками з масивних даних розмови в соціальних платформах, таких як Facebook, Twitter, YouTube та інших.^[28] ERC може приймати вхідні дані, такі як текст, аудіо, відео або комбіновану форму, щоб виявити кілька емоцій, таких як страх, пожадливість, біль і задоволення.

Див. також

Афектові обчислення^[en]
Сприйняття обличчя
Система розпізнавання облич
Аналіз настроїв
Міжособистісна точність^[en]

Примітки

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads