Vous êtes ici : Accueil > Le laboratoire > Restreindre les fausses découvertes en protéomique et en biologie des omiques par filtres knockoffs

Fait marquant

Restreindre les fausses découvertes en protéomique et en biologie des omiques par filtres knockoffs


​​​​Des chercheurs de BGE/EDyP​ adaptent des théories ayant émergées dans le domaine des statistiques en grande dimensionnalité pour mieux contrôler le risque de fausses découvertes en protéomique et en biologie des omiques.​​

Publié le 27 mars 2024

Le développement continu des méthodes et technologies de caractérisation à large échelle des échantillons biologiques est à double tranchant pour les chercheurs en biologie moléculaire : D’un côté, celles-ci permettent un accès fiable et rapide à des milliers de gènes, transcripts, protéines ou métabolites, ce qui offre la possibilité de vérifier un nombre considérable d’hypothèses concernant le fonctionnement du vivant. D’un autre côté, la multiplication des hypothèses pouvant être étudiées simultanément induit une augmentation du risque que l’une d’entre elles soit validée par hasard et à tort: ce que l’on appelle une fausse découverte. ​​
​​
Cette augmentation du risque de fausses découvertes est simplement d’origine combinatoire : la probabilité est faible qu’une biomolécule prise au hasard subisse des fluctuations de mesures correspondant exactement aux attentes induites par l’hypothèse étudiée. En revanche, si plusieurs milliers de biomolécules sont scrutées simultanément, la probabilité qu’au moins l’une d’entre elles se comporte ainsi devient importante.​​
​​
Le contrôle du risque de fausses découvertes est donc un enjeu majeur de la biologie moderne, et pour y répondre, des méthodes avancées issues des statistiques sont nécessaires. Cependant, entre le cadre théorique permettant de contrôler ce risque statistique et la complexité des plans d’expérience concrètement utilisés en biologie, les écarts sont tellement importants qu’ils peuvent compromettre la capacité à contrôler effectivement le risque de fausses découvertes. Ce grand écart est particulièrement prégnant en protéomique, où la complexité de la mesure réalisée grâce au couplage de la spectrométrie de masse et de la chromatographie liquide vient s’ajouter au faible nombre d’échantillons qu’il est généralement possible d’analyser pour une expérience donnée.​​
​​
Pour palier cela, des chercheurs de BGE/EDyP travaillent depuis de nombreuses années à la mise en perspective des contraintes expérimentales et des hypothèses théoriques nécessaires au contrôle des fausses découvertes, afin de permettre leur articulation cohérente dans des chaînes d’analyses de données [4] et leur intégration dans différentes suites logicielles (ex : www.prostar-proteomics.org), afin de parfaire les outils de contrôle qualité. Leur récents travaux se sont concentrés sur la théorie des filtres « Knockoffs », qui a révolutionné le champ de l’inférence sélective ces dernières années, en proposant de s’appuyer sur des tirages aléatoires pour mieux caractériser les propriétés des fausses découvertes. Cette équipe a notamment fait le lien entre l’usage des Knockoffs et les méthodes empiriques historiquement utilisées par les protéomiciens pour gérer le risque de fausses découvertes [2] pour proposer de nouvelles manières de travailler [3, 1]. ​​


Figure : Un « volcano-plot » représentant par des points oranges les protéines pouvant expliquer une différence de phénotype en fonction de leur significativité (en ordonnée) et de l’importance de l’effet mesuré (en abscisse). Les filtres Knockoffs permettent de contrôler le taux de fausses découvertes associé à une sélection des protéines (en vert) suivant une frontière de décision hyperbolique (en bleu), permettant de tenir compte à la fois de l’effet et de la significativité.
Protéomique : Caractérisation (identification et quantification) à large échelle des protéines présentes dans un échantillon biologique.
Inférence sélective : Domaine des statistiques en grande dimensionnalité qui s’intéresse à la généralisation de connaissances tirées de données expérimentales alors que ces données ont été préalablement sélectionnées en raison de leurs spécificités.
Avec le soutien financier de
  • ​Multidisciplinary Institute in Artificial Intelligence (MIAI @ Grenoble Alpes, ANR) 
  • Le programme GRAL via Chemistry Biology Health Graduate School at University Grenoble Alpes (ANR) 
  • ProFI (Proteomics French Infrastructure, ANR)

Haut de page