Réseaux de neurones convolutifs de quaternions pour l'identification de thèmes de conversations téléphoniques

RÉSUMÉ. Les réseaux de neurones convolutifs de quaternions (QCNN) forment un ensemble d’algorithmes particulièrement efficaces pour l’apprentissage et la modélisation des relations internes et externes existantes entre les caractéristiques d’un vecteur de données. Ce travail propose d’évaluer l’efficacité des QCNNs à travers une tâche réaliste d’identification automatique de thèmes contenus dans des conversations téléphoniques, impliquant des agents et des usagers du centre d’appel du service de transport de la ville de Paris (RATP). Il est ainsi démontré que les QCNNs sont plus performants que leurs homologues basés sur l’algèbre des nombres réels (CNN) pour le traitement de données multidimensionnelles, et pour coder les relations internes. En effet, les CNNs traitent, sans distinction, et au même niveau, les relations internes et externes, dû à la nature propre des représentations dans des espaces composés de nombres réels. Les expérimentations montrent que le QCNN surpasse de manière constante et pour l’ensemble des configurations le CNN durant la tâche d’identification de thèmes basée sur le corpus de dialogues parlés DECODA. De plus, cette hausse de précision est accompagnée d’une réduction significative du nombre de paramètres neuronaux composant le modèle par un facteur de quatre.

[1]  Timothy J. Hazen,et al.  Topic identification from audio recordings using word and phone recognition lattices , 2007, 2007 IEEE Workshop on Automatic Speech Recognition & Understanding (ASRU).

[2]  Jian Sun,et al.  Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification , 2015, 2015 IEEE International Conference on Computer Vision (ICCV).

[3]  Jürgen Schmidhuber,et al.  Framewise phoneme classification with bidirectional LSTM and other neural network architectures , 2005, Neural Networks.

[4]  Georges Linarès,et al.  The LIA Speech Recognition System: From 10xRT to 1xRT , 2007, TSD.

[5]  Mohamed Morchid,et al.  Theme identification in telephone service conversations using quaternions of speech features , 2013, INTERSPEECH.

[6]  Titouan Parcollet,et al.  Quaternion Denoising Encoder-Decoder for Theme Identification of Telephone Conversations , 2017, INTERSPEECH.

[7]  T. Nitta,et al.  A quaternary version of the back-propagation algorithm , 1995, Proceedings of ICNN'95 - International Conference on Neural Networks.

[8]  Nikos A. Aspragathos,et al.  A comparative study of three methods for robot kinematics , 1998, IEEE Trans. Syst. Man Cybern. Part B.

[9]  Frédéric Béchet,et al.  DECODA: a call-centre human-human spoken conversation corpus , 2012, LREC.

[10]  Ying Zhang,et al.  Quaternion Convolutional Neural Networks for End-to-End Automatic Speech Recognition , 2018, INTERSPEECH.

[11]  Nobuyuki Matsui,et al.  Feed forward neural network with random quaternionic neurons , 2017, Signal Process..

[12]  Geoffrey E. Hinton,et al.  Dynamic Routing Between Capsules , 2017, NIPS.

[13]  Jimmy Ba,et al.  Adam: A Method for Stochastic Optimization , 2014, ICLR.

[14]  Geoffrey E. Hinton,et al.  Speech recognition with deep recurrent neural networks , 2013, 2013 IEEE International Conference on Acoustics, Speech and Signal Processing.

[15]  Titouan Parcollet,et al.  Quaternion Neural Networks for Spoken Language Understanding , 2016, 2016 IEEE Spoken Language Technology Workshop (SLT).

[16]  Dongpo Xu,et al.  Learning Algorithms in Quaternion Neural Networks Using GHR Calculus , 2017 .

[17]  Michael I. Jordan,et al.  Latent Dirichlet Allocation , 2001, J. Mach. Learn. Res..

[18]  Xiang Zhang,et al.  Character-level Convolutional Networks for Text Classification , 2015, NIPS.

[19]  Sandeep Subramanian,et al.  Deep Complex Networks , 2017, ICLR.

[20]  Geoffrey E. Hinton,et al.  Rectified Linear Units Improve Restricted Boltzmann Machines , 2010, ICML.

[21]  Nobuyuki Matsui,et al.  Quaternion Neural Network and Its Application , 2003, KES.

[22]  Mohamed Morchid,et al.  Deep Stacked Autoencoders for Spoken Language Understanding , 2016, INTERSPEECH.

[23]  Yoshua Bengio,et al.  Understanding the difficulty of training deep feedforward neural networks , 2010, AISTATS.

[24]  Titouan Parcollet,et al.  Deep quaternion neural networks for spoken language understanding , 2017, 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU).

[25]  S. Sangwine Fourier transforms of colour images using quaternion or hypercomplex, numbers , 1996 .

[26]  Jian Sun,et al.  Deep Residual Learning for Image Recognition , 2015, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).

[27]  Giovanni Muscato,et al.  Multilayer Perceptrons to Approximate Quaternion Valued Functions , 1997, Neural Networks.

[28]  Anthony S. Maida,et al.  Deep Quaternion Networks , 2017, 2018 International Joint Conference on Neural Networks (IJCNN).

[29]  Lukás Burget,et al.  Recurrent neural network based language model , 2010, INTERSPEECH.

[30]  Yuichi Nakamura,et al.  Approximation of dynamical systems by continuous time recurrent neural networks , 1993, Neural Networks.

[31]  Jürgen Schmidhuber,et al.  Learning to Forget: Continual Prediction with LSTM , 2000, Neural Computation.