Conséquences de la sélection de variables sur l'interprétation des résultats en régression linéaire multiple

La selection de variables, a priori ou a posteriori, est une pratique tres courante en regression multiple. L’utilisateur n’est cependant pas toujours conscient des consequences sur les resultats qu’induit cette selection. Dans cette note, les notions de biais d’omission et de biais de selection des variables sont illustrees a partir d’un exemple simule. Les consequences de la selection des variables sur l’estimation des parametres et sur les predictions sont ensuite examinees. L’attention de l’utilisateur est attiree sur les risques d’interpretation abusive des coefficients de regression, particulierement apres selection de variables. Par contre, les consequences de la selection des variables sur la qualite des valeurs predites de la variable a expliquer sont assez limitees, du moins pour l’exemple examine.