Olga Permiakova

Méthodes d'apprentissage automatique pour l'extraction de motifs chromatographiques dans des gros volumes de données de spectrométrie de masse

Publié le 3 mai 2021

Thèse soutenue le 03 mai 2021 pour obtenir le grade de docteur de la Communauté Université Grenoble Alpes - Spécialité : MBS - Modèles, méthodes et algorithmes en biologie, santé et environnement

Résumé :
L'analyse protéomique consiste à déterminer les identités et quantités des protéines contenues dans des échantillons biologiques. Une telle analyse est souvent nécessaire en recherche fondamentale ou clinique, pour trouver des protéines différentiellement exprimées entre plusieurs conditions, communément appelées « biomarqueurs ». La protéomique moderne s’appuie principalement sur des techniques de chimie analytique, et notamment, sur la spectrométrie de masse (MS) couplée à la chromatographie liquide haute pression (LC). Pour augmenter la profondeur et la couverture des analyses protéomiques, le multiplexage des acquisitions est de plus en plus utilisé, malgré les défis que cela soulève ensuite lors du traitement des données. Récemment, il a été montré que certains d’entre eux pouvaient être résolus à l'aide d’une « bibliothèque de chromatogrammes », c’est-à-dire une collection de profils chromatographiques élémentaires correspondant à différents fragments de protéines présents dans les échantillons. Les approches de l’état de l’art s’appuient sur des expériences complémentaires (et coûteuses) de spectrométrie de masse pour construire cette bibliothèque de chromatogrammes. L'objectif de ce travail a donc été de s’affranchir de ces expériences et d’appliquer des méthodes d’apprentissage automatique innovantes pour construire in silico cette bibliothèque. Deux méthodes ont été développées. La première, appelée CHICKN (Chromatogram Hierarchical Compressive K-means with Nyström approximation), propose de partitionner les profils d'élution observés (définis comme les colonnes de la matrice contenant les données LC-MS) en plusieurs groupes en fonction de leur forme, puis de construire la bibliothèque en utilisant un représentant de chaque groupe. Afin d’être calculatoirement efficace, l’étape de partitionnement s’appuie sur la théorie de l'apprentissage compressif, qui permet de traiter un sketch des données (un résumé de taille fixe) plutôt que les données complètes. Par ailleurs, l'algorithme ainsi obtenu est compatible avec l'astuce du noyau, qui est accélérée grâce à l'approximation de Nyström. Enfin, nous avons proposé deux nouveaux noyaux à partir de la distance Wasserstein-1. Nous avons établi sur des données protéomiques réelles que ces deux noyaux permettent de mieux appréhender les spécificités des données LC-MS. La deuxième méthode développée dans cette thèse est constituée d’un algorithme d'apprentissage de dictionnaire, baptisé SSDL (Sketched Stochastic Dictionary Learning); afin d'utiliser ensuite le dictionnaire ainsi appris comme bibliothèque de chromatogrammes. Cette méthode repose également sur la théorie de l'apprentissage compressif. De plus, son efficacité computationnelle est renforcée par une version stochastique de la méthode de descente de gradient accélérée de Nesterov. Les performances des deux méthodes ont été évaluées sur des données LC-MS réelles. Nous avons démontré que les deux méthodes conduisent effectivement à la construction de bibliothèques de chromatogrammes qui satisfont toutes les exigences de données LC-MS (dont, notamment, l’interprétabilité physique). En outre, elles ont un faible coût de calcul, ce qui leur permet de construire efficacement les très grandes bibliothèques de chromatogrammes qui sont nécessaires à l’analyse d’échantillons biologiques complexes.

Jury :
Présidente : Madame Florence Forbes
Rapporteur : Monsieur Frédéric Bertrand
Rapporteur : Monsieur Blaise Hanczar
Examinateur : Monsieur Laurent Jacob
Directeur de thèse : Monsieur Thomas Burger

Mots clés :
Spectrométrie de masse, Démultiplexage, Apprentissage automatique

Thèse en ligne.

Haut de page

Laboratoire Biosciences et Bioingénierie pour la Santé - UA13 INSERM-CEA-UGA

Dans la même rubrique :

Méthodes d'apprentissage automatique pour l'extraction de motifs chromatographiques dans des gros volumes de données de spectrométrie de masse

Mots clés : Soutenance de thèse | spectrométrie de masse | protéomique | apprentissage automatique | démultiplexage | EDyP

Naviguer dans le site

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Naviguer dans le portail

Laboratoire Biosciences et Bioingénierie pour la Santé - UA13 INSERM-CEA-UGA

Laboratoire Biosciences et Bioingénierie pour la Santé

Équipe Biomicrotechnologie et Génomique Fonctionnelle (Biomics)

Équipe Étude de la Dynamique des Protéomes (EDyP)

Équipe Génétique & Chemogénomique (Gen&Chem)

Dans la même rubrique :

Méthodes d'apprentissage automatique pour l'extraction de motifs chromatographiques dans des gros volumes de données de spectrométrie de masse

Mots clés : Soutenance de thèse | spectrométrie de masse | protéomique | apprentissage automatique | démultiplexage | EDyP

Naviguer dans le site

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Naviguer dans le portail