トップQs
タイムライン
チャット
視点
感情認識
ウィキペディアから
Remove ads
感情認識(かんじょうにんしき、英語: Emotion recognition)は、人間の感情を識別するプロセス。他人の感情を認識する際の正確さは、人によって大きく異なる。感情認識を持つ人々を支援するためのテクノロジーの使用は、比較的初期の研究分野である。一般に、このテクノロジーは、コンテキスト内で複数のモダリティ(人間とコンピュータの相互作用)を使用する場合に最適に機能する。これまで、ほとんどの作業は、ビデオからの顔の表情の認識、音声からの話し言葉、テキストからの書き言葉、およびウェアラブルによって測定される生理学の認識を自動化することで行われてきた。
人間
人間は、感情を認識する能力に大きなばらつきを示す。自動感情認識について学ぶときに覚えておくべき重要なポイントは、「グラウンドトゥルース」、つまり実際の感情が何であるかについての「真実」のいくつかのソースがあるということである。
アレックスの感情を認識しようとしていると、一つの情報源は「ほとんどの人はアレックスが感じていると言うだろうか?」である。この場合、「真実」はアレックスが感じるものに対応しないかもしれないが、ほとんどの人がアレックスが感じるように見えると言うものに対応するかもしれない。たとえば、アレックスは実際には悲しみを感じるかもしれないが、彼は大きな笑顔を浮かべ、ほとんどの人は彼が幸せそうに見えると言う。自動化された方法でオブザーバーのグループと同じ結果が得られた場合、アレックスが実際に感じていることを実際に測定していなくても、正確であると見なされる可能性がある。「真実」のもう1つの情報源は、アレックスに本当に感じていることを尋ねることである。これは、アレックスが自分の内部状態をよく理解していて、それが何であるかを伝えたい場合に機能し、それを正確に単語や数字に変換することができる。しかし、アレキシサイミアで内面的な感情がよくわからない人や、言葉や数字で正確に伝えることができない人も存在する。一般に、実際にどのような感情が存在するかを理解するには、ある程度の作業が必要であり、選択した基準によって異なり、通常、ある程度の不確実性を維持する必要がある。
Remove ads
自動的
要約
視点
自動化された感情認識の方法を開発および評価するために、何十年にもわたる科学的研究が行われてきた。現在、信号処理、機械学習、コンピュータービジョン、音声処理など、複数の分野の技術を活用して、何百もの異なる種類の方法を提案および評価している広範な文献がある。ベイジアンネットワークなどの感情を解釈するために、ガウス混合モデル[1]と隠れマルコフモデル[2]およびディープニューラルネットワーク[3]、さまざまな方法論と手法を採用することができる[4]。
アプローチ
感情認識の精度は、通常、テキスト、生理学、オーディオ、ビデオなどのマルチモーダル形式からの人間の表情の分析を組み合わせると向上する[5]。顔の表情、体の動きとジェスチャ認識、およびスピーチからの情報を統合することにより、さまざまな感情タイプが検出される[6]。この技術は、いわゆる感情的または感動的なインターネットの出現に貢献していると言われている[7]。
特定の感情タイプを分類するための感情認識における既存のアプローチは、一般に、知識ベースの手法、統計的手法、およびハイブリッドアプローチの3つの主要なカテゴリに分類できる[8]。
知識ベースの技術
知識ベースの手法(レキシコンベースの手法と呼ばれることもある)は、特定の感情タイプを検出するために、ドメイン知識と言語の意味論および統語論を利用する。このアプローチでは、感情分類プロセス中に WordNet 、SenticNet[9]、ConceptNet 、EmotiNet[10]などの知識ベースのリソースを使用するのが一般的である[11]。このアプローチの利点の1つは、そのような知識ベースのリソースの大規模な可用性によってもたらされるアクセシビリティと経済性[8]。一方、この手法の制限は、概念のニュアンスや複雑な言語規則を処理できない[8]。
知識ベースの手法は、主に辞書ベースのアプローチとコーパスベースのアプローチの2つのカテゴリに分類が可能で、辞書ベースのアプローチでは、辞書で意見または感情の種言語を検索し、それらの同義語と反意語を検索し、意見または感情の初期リストを拡張する[12]。一方、コーパスベースのアプローチでは、意見や感情の単語の種言語から始め大規模なコーパスでコンテキスト固有の特性を持つ他の単語を見つけてデータベースを拡張する[12]。コーパスベースのアプローチではコンテキストが考慮されるが、あるドメインの単語が別のドメインで異なる方向を向いている可能性があるため、そのパフォーマンスはドメインによって異なる[13]。
統計的手法
統計的手法では、通常、さまざまな教師あり機械学習アルゴリズムを使用する。このアルゴリズムでは、システムが適切な感情タイプを学習および予測するために、注釈付きデータの大規模なセットがアルゴリズムに入力される[8]。機械学習アルゴリズムは、一般に他のアプローチと比較してより合理的な分類精度を提供するが、分類プロセスで良好な結果を達成するための課題の1つは、十分に大きなトレーニングセットを用意する必要がある[8]。
最も一般的に使用される機械学習アルゴリズムには、サポートベクターマシン(SVM) 、ナイーブベイズ、最大エントロピーなどがある[14]。教師なし機械学習ファミリーの下にあるディープラーニングは、感情認識にも広く採用されている[15][16][17]。よく知られているディープラーニングアルゴリズムには、畳み込みニューラルネットワーク(CNN) 、長・短期記憶(LSTM) 、エクストリーム・ラーニング・マシン(ELM)などの人工ニューラルネットワーク(ANN)のさまざまなアーキテクチャが含まれる[14]。感情認識の分野でのディープラーニング学習アプローチの人気は、主に、コンピュータービジョン、音声認識、自然言語処理(NLP)などの関連アプリケーションでの成功に起因している可能性がある[14]。
ハイブリッドアプローチ
感情認識におけるハイブリッドアプローチは、本質的に知識ベースの手法と統計的手法の組み合わせであり、両方の手法の補完的な特性を活用する[8]。知識主導の言語要素と統計的手法のアンサンブルを適用した作品のいくつかには、概念レベルの知識ベースのリソースであるSenticNetを採用したセンティックコンピューティングとiFeelが含まれる[18][19]。ハイブリッドアプローチの実装におけるそのような知識ベースのリソースの役割は、感情分類プロセスにおいて非常に重要である[11]。ハイブリッド手法は、知識ベースのアプローチと統計的アプローチの両方によって提供される利点から得られるため、知識ベースまたは統計的手法を個別に採用するのではなく、分類パフォーマンスが向上する傾向があるが、ハイブリッド手法を使用することの欠点は、分類プロセス中の計算が複雑になる[11]。
データセット
データは感情認識における既存のアプローチの不可欠な部分であり、ほとんどの場合、機械学習アルゴリズムのトレーニングに必要な注釈付きデータを取得することは困難である[12]。テキスト、オーディオ、ビデオ、または生理学的信号の形式でマルチモーダルソースからのさまざまな感情タイプを分類するタスクのために、次のデータセットが利用可能である。
- HUMAINE:複数のモダリティで感情的な単語とコンテキストラベルを備えた自然なクリップを提供する[20]。
- Belfastデータベース:テレビ番組やインタビューの録音からの幅広い感情をクリップに提供する[21]。
- SEMAINE:人と仮想エージェントの間の視聴覚録音を提供し、怒り、幸せ、恐怖、嫌悪感、悲しみ、軽蔑、娯楽などの感情の注釈が含まれている[22]。
- IEMOCAP:俳優間の二者択一のセッションの記録を提供し、幸福、怒り、悲しみ、欲求不満、中立状態などの感情[23]。
- eNTERFACE:7つの国籍の被験者の視聴覚記録を提供し、幸福、怒り、悲しみ、驚き、嫌悪感、恐怖などの感情[24]。
- DEAP:脳波記録( EEG )、心電図( ECG )の記録、顔のビデオ録画、およびフィルムクリップを見ている人々の感情価、覚醒、優位性に関する感情の注釈を提供する[25]。
- DREAMER:脳波記録( EEG )と心電図( ECG )の記録に加え、フィルムクリップを見ている人々の感情価、覚醒、および優位性に関する感情の注釈を提供する[26]
- MELD:各発話が感情と感情でラベル付けされているマルチパーティの会話データセット。MELD [27]はビデオ形式で会話を提供するため、マルチモーダル感情認識および感情分析に適している。 MELDは、マルチモーダル感情分析と感情認識、対話システム、会話における感情認識に役立つ[28]。
- MuSe:人と物体の間の自然な相互作用の視聴覚記録を提供する[29]。感情価、覚醒、信頼性の観点から、離散的かつ継続的な感情注釈と、マルチモーダル感情分析および感情認識に役立つ音声トピックがある。
- UIT-VSMEC:標準的なベトナムのソーシャルメディア感情コーパス(UIT-VSMEC)であり、6つの感情ラベルを持つ約6,927の人間の注釈付き文があり、自然言語処理(NLP)の低リソース言語であるベトナムの感情認識研究に貢献している[30]。
- BED:脳波記録( EEG )の記録、および画像を見ている人々の感情価、覚醒に関する感情の注釈を提供する。また、EEGベースのバイオメトリクス[31]はいろいろなタスク(SSVEP、目を閉じて休む、目を開いて休む、認知タスク)にさらされる人々の脳波記録(EEG)も含む。
アプリケーション
感情認識は、さまざまな理由で社会で使用されている。MITからスピンアウトしたAffectivaは、主に視聴者がこの情報を共有することに同意した特定のコンテキストに関連する顔の表情や声の表情の情報を収集するために、以前は人が手動で行っていたタスクをより効率的に実行できる人工知能ソフトウェアを提供する。たとえば、教育用のビデオや広告を見て、各時点でどのように感じるかについての長い調査に記入する代わりに、カメラにあなたの顔を見て、あなたの言うことを聞いてもらい、経験のどの部分であなたが退屈、興味、混乱、笑顔などの表現を示す。(これは、それがあなたの最も内側の感情を読んでいることを意味するのではなく、あなたが外側に表現したものだけを読んでいることに注意すべき。)Affectivaのその他の用途には、自閉症の子供を支援する、目の不自由な人が顔の表情を読むのを支援する、ロボットが人々とよりインテリジェントに対話するのを支援する、運転中の注意の兆候を監視してドライバーの安全性を高めるなどがある[32]。
2015年に、Snapchatによって出願された特許は、ユーザーのジオタグ付きセルフィーに対してアルゴリズムによる感情認識を実行することにより、公開イベントで群衆に関するデータを抽出する方法を説明してる[33]。
Emotientは、顔のしかめ面や笑顔などの表情、つまり「顔の表情に基づいた態度や行動」を予測する人工知能に感情認識を適用した新興企業であった[34]。2016年に、AppleはEmotientを購入し、感情認識テクノロジーを使用して製品の感情的知性を強化している[34]。
nVisoは、リアルタイムAPIを介してWebおよびモバイルアプリケーションにリアルタイムの感情認識を提供する[35]。 ヴィサージュ・テクノロジー ABは、マーケティングや科学研究などの目的で、ヴィサージュ SDKの一部として感情推定を提供する[36]。
Eyerisは、感情認識会社であり、自動車メーカーやソーシャルロボット会社などの組み込みシステムメーカーと協力して、顔分析と感情認識ソフトウェアを統合している。また、ビデオコンテンツの作成者と協力して、短い形式と長い形式のビデオクリエイティブの効果を測定できるようにする[37][38]。
Remove ads
感情認識のサブフィールド
感情認識は、テクスト(会話)、音声、ビデオ、生理学などのさまざまなオブジェクトを組み合わせて感情を検出することにより、複数のモダリティを適用する場合に、おそらく最良の結果を得ることになる。
テキストでの感情認識
テキストデータは、人間の生活のどこでも無料で利用できる場合、感情認識に適した研究対象である。他のタイプのデータと比較して、言語での単語や文字の頻繁な繰り返しにより、テキストデータの保存は軽量で、最高のパフォーマンスに圧縮するのが簡単である。感情は、書かれたテキストと会話(対話)という2つの重要なテキスト形式から抽出できる[39]。書かれたテキストの場合、多くの学者は、感情を表す「単語/フレーズ」を抽出するために文レベルでの作業に焦点を合わせている[40][41]。
音声での感情認識
テキストでの感情認識とは異なり、音声から感情を抽出するための認識には音声信号が使用される[42]。
ビデオでの感情認識
会話における感情認識
会話における感情認識(ERC)は、Facebook、Twitter、YouTubeなどのソーシャルプラットフォームの大量の会話データから参加者間の意見を抽出する[28]。ERCは、テキスト、オーディオ、ビデオ、または組み合わせフォームなどの入力データを取得して、恐怖、欲望、痛み、喜びなどのいくつかの感情を検出できる。
関連項目
脚注
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads