Stage, Laboratoire de Mathématiques Jean Leray, Nantes Université.| Entreprise/Organisme : | Nantes Université et Université Grenoble Alpes | | Niveau d'études : | Master | | Sujet : | Heuristique de pente pour la sélection de variables en grande dimension. | | Durée du contrat : | 6 mois | | Rémunération : | Environ 650 euros net/mois | | Secteur d'activité : | Statistique | | Description : | Dans le cadre des modélisations, les statisticien·ne·s doivent parfois choisir entre plusieurs modèles possibles. Ce cas se rencontre par exemple pour les modèles linéaires où la variable Y est
expliquée par une sous partie des variables descriptives disponibles X1, · · · ,Xp ; en particulier si
p est plus grand que n (voir Tibshirani, 1996); un modèle est alors un sous-ensemble de variables
parmi les p que l’on doit choisir judicieusement. Nous rencontrons aussi cette question dans
le cas des modèles de mélanges où plusieurs lois sont présentes mais nous ignorons le nombre
(voir par exemple Dempster et al., 1977) ou dans d’autres modélisations comme les processus
ARMA en série chronologique (voir par exemple Droesbeke et al., 1989). Pour répondre à la
question du choix du modèle, il est possible d’utiliser des critères de sélection de modèles comme
l’Akaike Information Criterion (AIC) de Akaike (1973) (qui pénalise la vraisemblance par 2
fois le nombre de paramètres) ou le Bayesian Information Criterion (BIC) de Schwarz (1978)
(qui pénalise la vraisemblance par une fonction du nombre d’observations) ; les résultats étant
différents suivant la forme de la pénalité et répondant à des objectifs différents (prédiction pour
l’AIC et consistance pour le BIC).
La question de la calibration de cette pénalité est ardue et a mené à plusieurs théories qui
ont permis d’introduire des critères plus complexes mais plus judicieux que l’AIC et le BIC.
Une de ces théories, étudiée dans ce stage, s’appelle l’heuristique de pente dont le principe
est le suivant. Étant données une collection de modèles et une fonction objective appelée contraste (par exemple, les moindre carrés pour une estimation linéaire), la théorie montre que si
nous conservons le modèle minimisant le contraste empirique (fonction des observations), nous
choisirons quasiment à chaque fois le modèle le plus complexe (on parle de sur-apprentissage) ; l’idée étant qu’à partir d’un moment, nous n’améliorons plus le modèle mais le côté aléatoire
des données. Ainsi, il est nécessaire de pénaliser ce contraste par une fonction (appelée pénalité
et dépendante de la complexité du modèle) souvent connue à constantes près. La méthode de
l’heuristique de pente consiste à calibrer ces constantes inconnues directement sur le jeu de données disponible en exploitant un certain comportement affine (théoriquement prouvé) existant
sur les gros modèles de la collection. Cette heuristique est fondée sur les travaux théoriques de (Birgé and Massart, 2007) et est appliquée dans de nombreux modèles statistiques (Baudry
et al., 2012).
A ce jour, l’heuristique de pente est codé dans le package R Capushe (Brault et al., 2012)
uniquement lorsque la pénalité est connue à une seule constante inconnue près et nécessite
souvent un grand nombre d’observations pour améliorer l’estimation des contrastes. L’idée du
stage est de généraliser le code en implémentant une version plus robuste et/ou multivariée.
Nous pourrons par exemple nous intéresser à des méthodes de ré-échantillonnages de type bootstrap et nous inspirer des travaux de (Lacroix, 2022) (chapitre 5) pour une première approche.
La personne effectuant ce stage pourra alors étudier ces principes suivants deux modélisations
différentes : les modèles linéaires sparses et les modèles de mélanges. | | En savoir plus : | https://drive.google.com/file/d/1SLP5wtRND_P1IMI_y8AEeCnryRhfPo0X/view?usp=sharing Stage_M2_slope_heuristics_Lacroix_Brault.pdf | | Contact : | perrine.lacroix@univ-nantes.fr |
|