Extraction de connaissances à partir de données protéomiques

Des chercheurs de notre laboratoire développent des outils informatiques et statistiques destinés au traitements des données protéomiques. Ces outils sont intégrés à différentes suites logicielles, telles que Proline (développée dans le cadre de PRoFI, l’infrastructure nationale de Protéomique), ou ProStaR.

Publié le 21 juin 2016

De nos jours, la qualité des données de protéomique produites par spectrométrie de masse est supérieure à la celle de leur traitement informatique et statistique, de sorte que cette dernière étape est devenue le maillon faible de la chaîne. Pourtant, le traitement fiable, rapide et robuste de ces données est indispensable pour l’extraction de connaissances biologiques pertinentes.

Afin de permettre une exploration plus complète et plus précise des mélanges complexes de protéines qui sont présents dans les échantillons biologiques, des chercheurs de notre laboratoire développent de nouveaux outils statistiques qui sont particulièrement précieux pour exploiter au mieux les données quantitatives qui peuvent être obtenues à partir de ces échantillons. Ces outils sont intégrés à différentes suites logicielles, telles que Proline (développée dans le cadre de PRoFI, l’infrastructure nationale de Protéomique), ou ProStaR (disponible au téléchargement gratuitement ou en test), au même titre que de nombreux traitements statistiques préexistant de l’état de l’art. Ceux-ci permettent à l’expert en Protéomique de réaliser plus facilement, de manière robuste et reproductible, l’ensemble des traitements statistiques nécessaires à une analyse complète : filtrage, normalisation, imputation, agrégation, tests d’hypothèses et correction de la multiplicité des tests.

Au-delà des outils logiciels, la réflexion menée en amont de ce travail nous a permis de développer un regard critique sur les méthodologies existantes, de les compléter, ou de les remplacer par des méthodes plus adaptées aux spécificités de la protéomique. C’est dans ce contexte, qu’ils ont notamment proposé de :
• Raffiner les méthodes d’estimation du taux de fausses découvertes (la proportion de protéines dont les abondances sont considérées varier entre des conditions biologiques différentes) ^{[Référence 4]} ;
• Améliorer l’imputation des valeurs manquantes (en tenant compte à la fois des intensités peptidiques censurées car sortant de la gamme dynamique du spectromètre et des valeurs manquantes aléatoires)^{[Référence 3]} ;
• Développer de nouveaux tests statistiques spécifiques prenant notamment en compte le graphe de relation peptides-protéines ^{[Référence 2]}.

Ces outils ouverts à la communauté ont comme principal intérêt de nous permettre de fournir une description et une quantification encore plus exhaustive et plus précise des protéomes, dans tous les projets l’impliquant.

Capture d’écran du logiciel ProStaR, durant l’étape de normalisation inter-réplicats d’une analyse quantitative.

^[1] Wieczorek S, Combes F, Lazar C, Giai-Gianetto Q, Gatto L, Dorffer A, Hesse AM, Couté Y, Ferro M, Bruley C and Burger T. DAPAR & ProStaR: Software to perform statistical analyses in quantitative discovery proteomics. Bioinformatics, 2016

^[2] Giai Gianetto Q, Couté Y, Bruley C and Burger T. Uses and misuses of the fudge factor in quantitative discovery proteomics. Proteomics, 2016

^[3] Lazar C, Gatto L, Ferro M, Bruley C and Burger T. Accounting for the multiple natures of missing values in label-free quantitative proteomics datasets to compare imputation strategies. Journal of Proteome Research, 2016, 15(4): 1116-1125

^[4] Giai Gianetto Q, Combes F, Ramus C, Bruley C, Couté Y and Burger T. Calibration plot for proteomics: A graphical tool to visually check the assumptions underlying FDR control in quantitative experiments. Proteomics, 2016, 16(1): 29-32

Haut de page

Mots clés : protéomique | bioinformatique | EDyP

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Acteur majeur de la recherche, du développement et de l'innovation, le CEA intervient dans quatre grands domaines : énergies bas carbone, défense et sécurité, technologies pour l’information et technologies pour la santé.

Haut de page

Laboratoire Biosciences et bioingénierie pour la Santé

Dans la même rubrique :

Extraction de connaissances à partir de données protéomiques

Références

Mots clés : protéomique | bioinformatique | EDyP

Autres développements en bioinformatique

Naviguer dans le site

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Naviguer dans le portail

Laboratoire Biosciences et bioingénierie pour la Santé

Le laboratoire

Équipe Biomicrotechnologie et Génomique Fonctionnelle (Biomics)

Équipe Étude de la Dynamique des Protéomes (EDyP)

Équipe Génétique & Chemogénomique (Gen&Chem)

Dans la même rubrique :

Extraction de connaissances à partir de données protéomiques

Références

Mots clés : protéomique | bioinformatique | EDyP

Autres développements en bioinformatique

Naviguer dans le site

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Naviguer dans le portail