Evaluation de la détection des émotions, des opinions ou des sentiments : dictatute de la majorité ou respect de la diversité d'opinions ?

Detection d'emotion, fouille d'opinion et analyse des sentiments sont generalement evalues par comparaison des reponses du systeme concerne par rapport a celles contenues dans un corpus de reference. Les questions posees dans cet article concernent a la fois la definition de la reference et la fiabilite des metriques les plus frequemment utilisees pour cette comparaison. Les experimentations menees pour evaluer le systeme de detection d'emotions EmoLogus servent de base de reflexion pour ces deux problemes. L'analyse des resultats d'EmoLogus et la comparaison entre les differentes metriques remettent en cause le choix du vote majoritaire comme reference. Par ailleurs elles montrent egalement la necessite de recourir a des outils statistiques plus evolues que ceux generalement utilises pour obtenir des evaluations fiables de systemes qui travaillent sur des donnees intrinsequement subjectives et incertaines.