This page written in French is out of date, yet it contains some materials and links that might be interesting for students

Le sujet et les données

Choisir librement un jeu de données adapté à la régression linéaire multivarié et qui contienne au moins une dizaine de prédicteurs, par exemple

Traiter le jeu de données choisi à l’aide d’un modèle linéaire multivarié. Utiliser diverses méthodes de sélection de variable (stepwise, forward/backward selection) et de régression biaisées (ridge/Lasso/etc) pour proposer un modèle qui vous semblera adéquate. Évaluer l’erreur de prédiction commise (avec validation croisée, ensemble test/apprentissage). Vous pourrez comparer vos modèles avec celui des moindres carrés quand cela est possible, pour lequel les techniques habituelles adaptées au modèle linéaire (bootstrap, régression robuste, analyse des résidus, etc.) peuvent être envisagées.

Pour chacun des jeux de données, vous commencerez par une étude de statistiques descriptives : posez-vous des questions sur les données, en trouvez des pistes à l’aide d’histogrammes, de nuages de points, boîtes à moustaches, moyennes, variances, etc. Si vous choisissez d’ôter des données, recomposer l’échantillon, cela peut être une bonne idée, mais justifiez-le !

Étude des données prostate

Vous pourrez vous faire les dents sur les données prostates afin de tester la validité des scripts R implémentés. Nous allons retrouver les résultats du livre The Elements of Statistical Learning - 2nd Edition en testant les modèles sur les données de cancer de la prostate.

Les moindres carrés ordinaires

Résolution commentée

Nous dérivons l’estimateur des moindres carrés, son biais, sa variance et mettons en place le test d’hypothèse fondé sur le Z-score pour décider de la nullité d’un paramètre. Un script R complet et commenté implémente ces résultats.

La régression ridge

Quelques notes sur la régression ridge

Nous dérivons l’estimateur de la régression ridge, qui pénalise la taille des coefficients à estimer, réduisant donc la variance mais augmentant le biais par rapport au moindres carrés.

Les méthodes de régularisation en norme 1

Présentation du Lasso et de ses dérivées

Nous présentons les critères du Lasso, de l’elastic-net, du group-lasso et de l’adaptive Lasso. Nous montrons comment les calculer en pratique sous R. On étudie le problème des données prostate.

Sous R, ces problèmes peuvent être résolus à l’aide des packages lars, glmnet et grplasso.

Validation croisée et choix de paramètres

Présentation de la validation croisée pour le choix de lambda

Nous présentons la validation croisée comme estimation de l’erreur de prédiction. Nous montrons comment l’appliquer au choix du paramètre de pénalisation dans les méthodes ridge et Lasso. Ceci se généralise facilement aux autres méthodes étudiées.

Bibliographie

Modèle linéaire avec R

Un livre dévolu à la pratique de la régression sous R.

Apprentisssage Statistique

Un livre de référence disponible gratuitement au format PDF (à voir en particulier: les chapitres 3 et 7 pour la régression linéaire pénalisée et la validation croisée)

L’article fondateur du Lasso

Tibshirani, R. (1996), Regression shrinkage an selection via the Lasso, Journal of the Royal Statistical Society, vol. 58, pp 267–288, preprint,

Algorithme de résolution

Un article répertoriant les méthodes de type Lasso, group-Lasso, Elastic-Net, etc. pouvant être résolu via un algorithme très simple de descente de coordonnées (le lecture des premières pages est suffisante pour vous).

Friedman, J. and Hastie, T. and Hoefling, H. and Tibshirani, R. (2007), Pathwise coordinate optimization, vol. 1, pp 302–332, Annals of Applied Statistics, preprint

Documentation R

Quelques packages R utiles