Variable selection: population genetic structure and transmission of Plasmodium through its vector mosquito.
Toussile, Wilson
HAL, tel-00553674 / Harvested from HAL
Dans cette thèse, nous considérons la question de sélection de variable dans deux deux problèmes pratiques. Le premier concerne une préoccupation très récurrente en génétique des populations qui consiste à regrouper les individus d'un échantillon d'organismes vivants dans des classes génétiquement homogènes sur la base d'informations procurées par un certain nombre de marqueurs génétiques. Nous supposons ne disposer d'aucune information à priori sur la population cible : il s'agit alors d'un problème de classification non supervisée. Par ailleurs, certaines variables peuvent ajouter du bruit à la classification. Nous proposons de résoudre simultanément le problème de sélection de variable et celui de sélection du nombre de composants du mélange dans une procédure de sélection de modèle. La sélection est ensuite faite via pénalisation du maximum de vraisemblance pénalisé. Sous des hypothèses faibles sur la fonction de pénalité, nous montrons que la procédure de sélection est consistance. Nous construisons ensuite une fonction de pénalité garantissant une inégalité oracle non-asymptotique. Bien que ce deuxième résultat ne soit pas directement utilisable, il suggère une pénalité de la forme du produit de la dimension des modèles en compétition et d'un paramètre données-dépendant que nous calibrons grâce à l'heuristique de la pente. Nous montrons sur des données simulées que cette calibration répond en partie au problème du choix du critère de sélection en fonction de la taille de l'échantillon. Le deuxième problème est motivé par le contrôle de la transmission de Plasmodium à travers son vecteur moustique. Nous disposons de données décrites par des variables diverses dont le nombre est de l'ordre de la taille de l'échantillon. Nous appliquons tout d'abord une procédure de sélection de variable qui repose sur l'importance des variables obtenues des forêts aléatoires. Les variables sélectionnées sont ensuite évaluées dans le modèle binomial négatif modifié en zéro.
Publié le : 2010-09-29
Classification:  Variable selection,  Mixture models,  Penalized maximum likelihood,  Population genetics,  Malaria,  Random forest.,  Sélection de variable,  Modèles de mélange,  Maximum de vraisemblance pénalisé,  Génétique des populations,  Paludisme,  Forêts aléatoires,  [MATH]Mathematics [math]
@article{tel-00553674,
     author = {Toussile, Wilson},
     title = {Variable selection: population genetic structure and transmission of Plasmodium through its vector mosquito.},
     journal = {HAL},
     volume = {2010},
     number = {0},
     year = {2010},
     language = {fr},
     url = {http://dml.mathdoc.fr/item/tel-00553674}
}
Toussile, Wilson. Variable selection: population genetic structure and transmission of Plasmodium through its vector mosquito.. HAL, Tome 2010 (2010) no. 0, . http://gdmltest.u-ga.fr/item/tel-00553674/