Résumé. Le data mining est aujourd’hui de plus en plus utilisé dans les entreprises les plus compétitives. Ce développement, rendu possible par la disponibilité grandissante de masses de données importantes, pose des contraintes tant théoriques (quels algorithmes utiliser pour produire des modèles d’analyses exploitant des milliers de variables pour des millions d’exemples) qu’opérationnelles (comment mettre en production et contrôler le bon fonctionnement de centaines de modèles). Je présenterai ces contraintes issues des besoins des entreprises ; je montrerai comment exploiter des résultats théoriques (provenant des travaux de Vladimir Vapnik) pour produire des modèles robustes; je donnerai des exemples d’applications réelles en gestion de la relation client. Nous verrons ainsi comment il est possible d’industrialiser le data mining et en faire ainsi un composant facilement exploitable dès qu’on dispose de données.
[1]
Françoise Soulié Fogelman,et al.
Data mining in the real world: What do we need and what do we have?
,
2006
.
[2]
Vladimir Vapnik,et al.
Universal learning technology : Support vector machines
,
2005
.
[3]
Doug Bryan,et al.
Data mining for quality improvement
,
2007
.
[4]
Heikki Mannila,et al.
Principles of Data Mining
,
2001,
Undergraduate Topics in Computer Science.
[5]
Mark F. Hornick,et al.
Java Data Mining: Strategy, Standard, and Practice: A Practical Guide for Architecture, Design, and Implementation
,
2006
.
[6]
Ron Kohavi,et al.
Scaling Up the Accuracy of Naive-Bayes Classifiers: A Decision-Tree Hybrid
,
1996,
KDD.
[7]
Chris Volinsky,et al.
Network-Based Marketing: Identifying Likely Adopters Via Consumer Networks
,
2006,
math/0606278.