| Description : | Des études épidémiologiques ont mis à jour l’effet d’une exposition à des rayonnements ionisants (RI) sur le développement de maladies cardiovasculaires (MCV, telles que l'athérosclérose et les accidents vasculaires cérébraux) pour des doses fortes à modérées (au-dessus de 500 mGy). La capacité statistique actuelle est contestée pour qualifier l’effet d’une exposition aux RI sur les MCV à des doses faibles compte tenu des biais, tel que les facteurs de confusion, au premier rang desquels le stress, connu pour activer le système nerveux sympathique impliqué dans les MCV. Or les MCV constituent une préoccupation forte de santé publique, responsables de la mort de près de 17,9 millions de personnes par an selon l’Organisation Mondiale de la Santé.
Pour faire progresser la compréhension des conséquences d’une exposition à faibles doses, les analyses s’appuient sur les données multi-omiques de la réponse biologique d’un organisme vivant soumis aux RI. Toutefois, la diversification des types de données utiles à la réduction des facteurs de confusion induit une augmentation du risque de biais lié aux données manquantes, pour lequel le plafond acceptable établi entre 20 % et 30 % est souvent dépassé et qui induit des risques sous ou surestimation. La thèse vise à construire une méthode d’analyse qui permette de traiter les donnée multi-omiques tout en intégrant les données manquantes à l’analyse des effets d’une exposition faible aux rayonnements ionisants sur les MCV.
Malgré l’abondance croissante de données dans l’étude des effets des rayonnements ionisants à faible dose au sein des laboratoires de biologie expérimentale (RNA-seq, métabolomique, lipidomique…), la gestion des données manquantes demeure un défi majeur pour exploiter pleinement l’information disponible. Pour relever ce défi, des approches méthodologiques spécifiques sont nécessaires pour intégrer différentes modalités de données et identifier les mécanismes d’action impliqués dans la réponse d’un organisme à un stress.
Eliminer les données manquantes, peut non seulement réduire la précision, mais aussi introduire des biais significatifs dans les modèles d’analyse intégrative, conduisant finalement à des résultats erronés. Ces problématiques sont étroitement liées aux caractéristiques intrinsèques des données générées et aux méthodes d’intégration utilisées pour traiter ces ensembles de données volumineux, souvent impactés par un nombre important de données manquantes. Observées à différentes échelles biologiques, ces données présentent des niveaux de fluctuation pouvant être influencés par des facteurs confondants et/ou des co-expositions, qui nécessitent l’application de facteurs correctifs dans l’analyse des données.
Le candidat(e) sera impliqué en premier temps à développer des algorithmes et des modèles statistiques pour l'analyse de grands ensembles de données biologiques. En particulier, nous gérerons les données manquantes et étudierons l’effet des facteurs confondants et de co-exposition (Goujon E et al., 2024). Cependant, les données multiblocs ont souvent une structure manquante, c'est-à-dire que les données d'un ou plusieurs blocs peuvent être complètement inobservées pour un échantillon. Dans ce travail, nous chercherons à traiter correctement les structures de données manquantes et à les comparer à la bibliographie (Peltier C et al., 2023 ; Baena-Miret S et al. 2024). |