Vous êtes ici : Accueil > Équipe EDyP > Expertise et développements > Informatique

Informatique

Publié le 5 août 2022
L'évolution technologique de la spectrométrie de masse pour la protéomique conduit inexorablement vers des instruments capables de fragmenter et d'analyser toujours plus vite des échantillons de plus en plus complexes. Si elles sont plus riches, ces données sont aussi plus volumineuses, jusqu'à 200 Go/mois. L'organisation et la gestion sécurisée et automatisée de ces données s'est vite révélée un point fondamental à notre activité et une condition nécessaire pour assurer le sérieux du suivi de nos échantillons et de leurs analyses. L'équipe informatique a mis en place une infrastructure matérielle capable de répondre à ces exigences dont la capacité de stockage atteint aujourd'hui 5 To. En l'absence de solutions informatiques adaptées à une activité de Recherche et de Développement et à la gestion de gros volumes de données électroniques, nous avons également développé une solution logicielle - ePims - qui assure la traçabilité des échantillons, le transfert automatisé des acquisitions et l'organisation des données d'acquisition sur cet espace de stockage. Cette solution et ses évolutions successives sont utilisées au laboratoire depuis 2005 et diffusées sous licence open source. Son déploiement et son exploitation ont fait l'objet d'un transfert de savoir-faire auprès de la société ASA.

L'identification et la quantification des protéines constituent le socle de l'activité d'analyse protéomique par spectrométrie de masse. L'équipe informatique assure la maintenance, l'évolution et la configuration du moteur d'identification Mascot. Les identifications peuvent contenir plusieurs milliers ou dizaines de milliers de spectres et de peptides et plusieurs centaines de protéines. Nous avons ainsi développé un outil d'aide à la validation. Cet outil, nommé IRMa, permet de valider manuellement ou automatiquement les propositions faites par Mascot des règles de filtrages. IRMa délivre un résultat cohérent dont le taux de faux positif est contrôlé.

Les échantillons très complexes sont classiquement préfractionnés. Ceci permet d'aller plus loin dans l'analyse en profondeur du contenu protéique. L'analyse de l'échantillon de départ conduit alors à traiter des dizaines voire des centaines d'identifications indépendantes qui doivent être combinées entre elles. C'est pour cette raison que nous avons développé à la fois un modèle de données relationnel capable de stocker un grand nombre d'identifications et un logiciel, nommé hEIDI, qui va permettre aux utilisateurs de travailler sur ces données pour les consulter, les combiner ou encore les comparer non plus individuellement mais à l'échelle d'un protéome ou d'un sous protéome.

Nous avons couplé ePims aux logiciels Mascot Distiller et Mascot Daemon et IRMa de façon à permettre l'automatisation de l'ensemble de la chaîne de traitement depuis le transfert des données d'acquisition vers ePims jusqu'à la validation des résultats d'identification et leur export dans les bases de données exploitées par hEIDI.

Dupierris V, Masselon C, Court M, Kieffer-Jaquinod S and Bruley C
A toolbox for validation of mass spectrometry peptides identification and generation of database: IRMa.
Bioinformatics, 2009