Analyse de sentiments
analyse automatique des opinions et émotions De Wikipédia, l'encyclopédie libre
En informatique, l'analyse de sentiments (ou opinion mining) consiste à extraire et interpréter les émotions exprimées dans des sources textuelles dématérialisées sur de grandes quantités de données (big data). Les sentiments extraits peuvent ensuite faire l'objet de statistiques sur le ressenti général d'une communauté.
Ce procédé apparait au début des années 2000 et connait un succès grandissant dû à l'abondance de données provenant de réseaux sociaux, notamment celles fournies par Twitter.
Source de données
Avec le web 2.0, toute page web est susceptible d'être une source de données[1]. Cependant Twitter présente des avantages intéressants comme la brièveté des tweets (140 caractères) ainsi que sa réactivité[2], de plus Twitter est ouvert et les textes qui y sont soumis sont accessibles à tous grâce à un service web[3] ce qui facilite l'exploitation des données.
Cependant plusieurs études ont été faites sur d’autres sources de données telles que des paroles de chansons ou des discours présidentiels[4].
Les réseaux sociaux restent malgré tout une cible privilégiée, car ils représentent une source de donnée riche et assurent un renouvèlement des informations en temps réel.
Outils d'analyse
Résumé
Contexte
Il existe des outils permettant d'identifier le sentiment dégagé par un texte. Voici une liste des outils les plus connus :
- Nocode functions[5]: application web gratuite d'analyse de sentiment en trois classes (positif, neutre, négatif) basé sur Umigon. Particulièrement adapté à l'analyse de textes de réseaux sociaux, en français ou en anglais, cette application a été évaluée comme la plus performante de sa catégorie.
- AFINN : évalue la positivité/négativité d'un mot à l'aide d'un dictionnaire contenu dans une archive ;
- General Inquirer : lemmatise les mots, effectue une analyse graphique et statistique et produit un rapport contenant des phrases avec les mots les plus significatifs ;
- SenticNet[6] : analyse avancée de la polarité de mots en prenant en compte leurs nuances ;
- WordNet : permet de savoir à l’aide de groupe de synonymes si un mot est positif ou non ;
- SentiWordNet : il s’agit d’une extension à WordNet ; il attribue à chaque groupe de synonymes provenant de WordNet, trois scores de sentiment : la positivité, la négativité, l'objectivité ;
- SentiSense[7] : il s’agit également d’un travail basé sur WordNet permettant de polariser les mots de façon plus précise ;
- Subjectivity Lexicon[8] : permet d’obtenir la polarité d’un mot tout en prenant soin d’analyser son contexte d’utilisation ;
- MicroWNOp : se base à la fois sur General Inquirer et WordNet ; il fournit des ensembles de mots positifs, négatifs et objectifs qui sont synonymes.
Dans le domaine de l'analyse de sentiment, une étude comparative[9] a été effectuée afin de déterminer quels étaient les avantages et inconvénients de chaque source de données. Dans le cadre d'analyse de tweets relatifs à des évènements majeurs, l'étude met en avant le fait que plusieurs de ces tweets n'ont pas pu être reconnus par les sources de données. On peut y voir que SentiWordNet, SenticNet et SentiStrength semblent couvrir un plus grand nombre de tweets. Cependant l'article met également en évidence que le taux de couverture n'est pas synonyme de reconnaissance efficace et que la polarité d'un mot donné n'est pas fiable. C'est pourquoi l'article se propose de combiner plusieurs de ces méthodes afin d'exploiter les avantages de chacun et d'obtenir le résultat le plus proche possible de la réalité.[réf. nécessaire]
Méthodes d'analyse
Le but de l'analyse de données est de déterminer si le sentiment dégagé par une phrase est positif ou négatif. La principale difficulté de l'analyse réside au cœur même de l'utilisation de la langue. Le sentiment dégagé par une phrase dépend directement du contexte dans laquelle elle est utilisée, du type de langage, ainsi que de la personne qui l'a écrite... En réalité, il existe une multitude de facteurs de plus ou moins grande influence qui altèrent le sentiment suscité par un propos.
Il existe deux grandes catégories d'analyse : l'analyse lexicale et l'analyse par apprentissage automatique. Cependant, il existe des outils qui tirent profit de ces deux méthodes[10].
Analyse lexicale
L'approche fondée sur l’analyse lexicale consiste à déduire l’émotion dégagée par une phrase via une analyse sémantique des mots. Cette approche implique de classifier la phrase via des instances de phrases déjà existantes et pour lesquelles des émotions ont déjà été identifiées. Pour cela, on utilise des dictionnaires qui référencent les mots annotés de la polarité et le contexte pour lequel celle-ci est valable[11].
Apprentissage automatique
Les principales méthodes de classification de mots sont basées sur les algorithmes suivants :
- classification naïve bayésienne (Naïve Bayes) ;
- principe d'entropie maximale, employé en tant que fondement derrière un algorithme de classification de texte (MaxEnt) par Nigam et al.[12] ;
- Apprentissage auto-supervisé.
L'algorithme le plus efficace semble être l'apprentissage auto-supervisé[13].
Applications et perspectives
L’analyse de sentiments peut trouver de nombreuses applications dans le domaine de la prédiction et de la supervision. En sciences sociales, l'analyse de sentiments permet d'effectuer des analyses médiatiques ou l'analyse des campagnes électorales[14],[15].
Prédiction
Résumé
Contexte
Évolution des indices boursiers tels que le NASDAQ ou Dow Jones
Une étude a montré que le taux d'émotion sur Twitter (espoir, peur, joie) était proportionnel à l'évolution des indices boursiers (plus les internautes sont sereins, plus les indices boursiers montent)[16]. De manière générale l'ensemble des études sur le sujet semble montrer une forte corrélation entre l'analyse des tweets et l'évolution des valeurs boursières.
Résultat d’une élection
Plusieurs études ont été menées, certaines avec des résultats prometteurs : une étude montre une forte corrélation entre les estimations basées sur des données provenant de Google Trends et le résultat de plusieurs élections[17].
D'autres études en revanche présentent un bilan plus mitigé : une tentative ratée de prédire l'élection présidentielle pakistanaise de 2013 montre que les mesures, bien que cohérentes, sont souvent trop imprécises pour être fiables[18].
Ces différences sont dues notamment à la non-représentativité démographique des internautes par rapport au total des votants, les jeunes étant plus actifs sur les réseaux sociaux que les séniors[19].
Succès d’un film
Pour ce qui concerne le box-office, les analyses montrent une forte précision dans leur modèle de prédiction, pouvant même surpasser les modèles existants[20].
Nouveau produit
Enfin, l'opinion mining peut être utilisé afin de prévoir le succès d'un produit avant son lancement[21].
Supervision
Utilisation en entreprise
Des entreprises ont montré qu’elles mettaient en œuvre des outils permettant de récupérer des informations sur leurs réputations en exploitant les flux de données publics exposés sur les forums, réseaux sociaux et microblogs tels que Twitter[22],[23]. Certaines proposent notamment des outils plus avancés de façon à superviser le sentiment dégagé par leurs clients pour ainsi améliorer leur communication[24].
Références
Voir aussi
Wikiwand - on
Seamless Wikipedia browsing. On steroids.