L'identification de gènes ayant permis à des populations de s'adapter à leur environnement local constitue une des problématiques majeures du domaine de la génétique des populations. Les méthodes statistiques actuelles répondant à cette problématique ne sont plus adaptées aux données de séquençage nouvelle génération (NGS). Nous proposons dans cette thèse de nouvelles statistiques adaptées à ces nouveaux volumes de données, destinées à la détection de gènes sous sélection. Nos méthodes reposent exclusivement sur l'Analyse en Composantes Principales, dont nous justifierons l'utilisation en génétique des populations. Nous expliquerons également les raisons pour lesquelles nos approches généralisent les méthodes statistiques existantes et démontrons l'intérêt d'utiliser une approche basée sur l'Analyse en Composantes Principales en comparant nos méthodes à celles de l'état de l'art. Notre travail a notamment abouti au développement de pcadapt, une librairie R permettant l'utilisation de nos statistiques de détection sur des données génétiques variées.
Publié le : 2017-12-21
Classification:
Bioinformatics,
Next-Generation Sequencing,
Statistical Learning,
Population Genetics,
Bio-Informatique,
Séquençage nouvelle génération,
Apprentissage statistique,
Machine Learning,
Génétique des populations,
[INFO.INFO-BI]Computer Science [cs]/Bioinformatics [q-bio.QM],
[SDV.GEN.GPO]Life Sciences [q-bio]/Genetics/Populations and Evolution [q-bio.PE],
[MATH.MATH-ST]Mathematics [math]/Statistics [math.ST]
@article{NNT: 2017GREAS053,
author = {Luu, Keurcien},
title = {Application of Principal Component Analysis to study biological adaptation in population genomics},
journal = {HAL},
volume = {2017},
number = {0},
year = {2017},
language = {fr},
url = {http://dml.mathdoc.fr/item/NNT: 2017GREAS053}
}
Luu, Keurcien. Application of Principal Component Analysis to study biological adaptation in population genomics. HAL, Tome 2017 (2017) no. 0, . http://gdmltest.u-ga.fr/item/NNT:%202017GREAS053/