Consulter les offres d’emploi

Stage M2 - Intégration de jeux de données protéomiques et PTM-omiques
Publiée le 05/02/2025 10:40.
Stage, Paris 15ème arrondissement.
Entreprise/Organisme :Institut Pasteur
Niveau d'études :Master
Sujet :Contexte : Le protéome est l’ensemble des protéines présentes dans des échantillons biologiques (cellules, organismes, etc.). La plateforme protéomique de l’Institut Pasteur a pour vocation l’étude à grande échelle des protéomes de pathogènes (virus, bactéries, etc.) et des interactions de ces pathogènes avec leur hôte. Dans ce but, elle travaille en collaboration avec différents laboratoires de recherche de l’Institut Pasteur. L’expérience utilisée le plus couramment à la plateforme se base sur la spectrométrie de masse et consiste à réaliser des analyses « bottom-up » (les protéines sont préalablement digérées en peptides pour une meilleure détection). Ces expériences produisent des données volumineuses qui nécessitent plusieurs étapes d’analyses pour être interprétées. D’un point de vue statistique, les jeux de données produits possèdent certaines caractéristiques particulières. Ainsi, on mesure des dizaines de milliers de peptides dans seulement quelques échantillons (données de type « large p, small n »). Il en résulte des matrices d’intensités mesurées qui possèdent des dizaines de milliers de lignes (les peptides) et seulement quelques colonnes (les échantillons). Elles peuvent être entachées de valeurs manquantes (survenant lorsque la protéine n’a pas été détectée dans un échantillon par exemple). Un sujet d’étude particulier concerne les modifications post-traductionnelles (« Post-translational modifications », ou PTM) de protéines. Ces modifications, notamment la phosphorylation, jouent un rôle clé dans la communication cellulaire. Leurs variations d'abondance peuvent perturber les signaux cellulaires, entraînant des désordres et des maladies. Comparer l'évolution d'un protéome non modifié à celle d'un phospho-protéome (ou autre PTM-ome) sous différentes conditions biologiques permet de déterminer si l’abondance de la modification est liée à celle de la protéine d'origine au fil des conditions. En cas d'absence de différence, on peut conclure que les conditions biologiques n'affectent pas l’abondance des modifications, et donc les signaux cellulaires. Ce type d'analyse aide à la compréhension du fonctionnement de maladies infectieuses et, in fine, à identifier des processus cellulaires à cibler pour améliorer le traitement de patients infectés. Contenu du stage : Sous la supervision d'un ingénieur de recherche statisticien de l'Institut, vous contribuerez au développement d'un programme en R, ainsi que de son interface en Shiny, pour simplifier ce type d'analyses au sein de la plateforme protéomique. Une première version de l'application est déjà en cours d'élaboration, mais plusieurs défis restent à relever, notamment la mise en place de méthodes statistiques pour plus de deux conditions biologiques et pour la visualisation des résultats. Ces améliorations sont essentielles pour rendre l'application pleinement opérationnelle dans le cadre des activités quotidiennes de la plateforme. Une comparaison exhaustive de méthodes d’intégration de ce type de données est à mener pour déterminer quelle approche statistique est la plus optimale à utiliser. Nous recherchons un(e) candidat(e) motivé(e) par cette problématique biologique concrète, par le développement de méthodes statistiques en R et par la création d’interfaces intuitives en Shiny, permettant d’exporter des résultats sous forme de tableurs Excel, fichiers PowerPoint ou Word. Idéalement, le/la candidat(e) possède de solides connaissances en mathématiques/statistiques, notamment en modèles de régression, clustering et analyses multivariées, et des connaissances en R, qu’il/elle pourra approfondir durant le stage.
Date de début :printemps 2025 (1er avril au plus tôt)
Durée du contrat :6 mois
Description :Contexte : Le protéome est l’ensemble des protéines présentes dans des échantillons biologiques (cellules, organismes, etc.). La plateforme protéomique de l’Institut Pasteur a pour vocation l’étude à grande échelle des protéomes de pathogènes (virus, bactéries, etc.) et des interactions de ces pathogènes avec leur hôte. Dans ce but, elle travaille en collaboration avec différents laboratoires de recherche de l’Institut Pasteur. L’expérience utilisée le plus couramment à la plateforme se base sur la spectrométrie de masse et consiste à réaliser des analyses « bottom-up » (les protéines sont préalablement digérées en peptides pour une meilleure détection). Ces expériences produisent des données volumineuses qui nécessitent plusieurs étapes d’analyses pour être interprétées. D’un point de vue statistique, les jeux de données produits possèdent certaines caractéristiques particulières. Ainsi, on mesure des dizaines de milliers de peptides dans seulement quelques échantillons (données de type « large p, small n »). Il en résulte des matrices d’intensités mesurées qui possèdent des dizaines de milliers de lignes (les peptides) et seulement quelques colonnes (les échantillons). Elles peuvent être entachées de valeurs manquantes (survenant lorsque la protéine n’a pas été détectée dans un échantillon par exemple). Un sujet d’étude particulier concerne les modifications post-traductionnelles (« Post-translational modifications », ou PTM) de protéines. Ces modifications, notamment la phosphorylation, jouent un rôle clé dans la communication cellulaire. Leurs variations d'abondance peuvent perturber les signaux cellulaires, entraînant des désordres et des maladies. Comparer l'évolution d'un protéome non modifié à celle d'un phospho-protéome (ou autre PTM-ome) sous différentes conditions biologiques permet de déterminer si l’abondance de la modification est liée à celle de la protéine d'origine au fil des conditions. En cas d'absence de différence, on peut conclure que les conditions biologiques n'affectent pas l’abondance des modifications, et donc les signaux cellulaires. Ce type d'analyse aide à la compréhension du fonctionnement de maladies infectieuses et, in fine, à identifier des processus cellulaires à cibler pour améliorer le traitement de patients infectés. Contenu du stage : Sous la supervision d'un ingénieur de recherche statisticien de l'Institut, vous contribuerez au développement d'un programme en R, ainsi que de son interface en Shiny, pour simplifier ce type d'analyses au sein de la plateforme protéomique. Une première version de l'application est déjà en cours d'élaboration, mais plusieurs défis restent à relever, notamment la mise en place de méthodes statistiques pour plus de deux conditions biologiques et pour la visualisation des résultats. Ces améliorations sont essentielles pour rendre l'application pleinement opérationnelle dans le cadre des activités quotidiennes de la plateforme. Une comparaison exhaustive de méthodes d’intégration de ce type de données est à mener pour déterminer quelle approche statistique est la plus optimale à utiliser. Nous recherchons un(e) candidat(e) motivé(e) par cette problématique biologique concrète, par le développement de méthodes statistiques en R et par la création d’interfaces intuitives en Shiny, permettant d’exporter des résultats sous forme de tableurs Excel, fichiers PowerPoint ou Word. Idéalement, le/la candidat(e) possède de solides connaissances en mathématiques/statistiques, notamment en modèles de régression, clustering et analyses multivariées, et des connaissances en R, qu’il/elle pourra approfondir durant le stage.
En savoir plus :https://research.pasteur.fr/fr/team/proteomics/
stageIP.pdf
Contact :quentin.giaigianetto@pasteur.fr
Protocoles séquentiels et adaptatifs pour planifier les études de bioéquivalence (données éparses)
Publiée le 05/02/2025 10:39.
Stage, Lille.
Entreprise/Organisme :Université de Lille, ULR 2694 Metrics
Niveau d'études :Master
Sujet :Approches par modélisation pour la planification de protocoles séquentiels ou adaptatifs dans les études de bioéquivalence avec échantillonnage épars
Date de début :dès que possible
Durée du contrat :6 mois
Rémunération :Standard stage de M2
Secteur d'activité :Statistique
Description :L'approche non compartimentales (NCA), recommandée pour analyser et planifier les études de bioequivalence (BE) en pharmacocinétique (PK), nécessite de nombreuses concentrations pour chaque sujet. Cela rend difficile son application à certaines populations, telles que les patients atteints de cancer. C'est pourquoi une approche alternative, basée sur une modélisation par modèle non linéaire à effets mixtes, a été developpée (approche MBBE). Plus récemment, la planification en 2 étapes avec des protocoles séquentiels (TSS) et adaptatifs (TSA) des études de BE par NCA a été transposée à l'approche MBBE, et évaluée sur des études avec échantillons PK riches. L'objectif de ce stage est d'étendre et d'évaluer cette approche à des études de BE avec échantillons épars. Différentes approches non-asymptotiques seront développées afin de corriger l'erreur standard d'estimation de l'effet du traitement sur les paramètres sur lesquels est effectué le test de BE : 1) un terme de correction tenant compte du nombre de paramètres du modèle PK, 2) la distribution a posteriori de l'effet traitement obtenue par Monte Carlo Hamiltonien (HMC) implémenté dans le langage Stan, 3) la méthode Sampling Importance Resampling 4) un bootstrap non paramétrique (rééchantillonnage de cas). Ces solutions seront ensuite évaluées par des simulations d'essais cliniques utilisant une étude de cas d’un médicament anticancéreux à haute variabilité indiqué pour le traitement de la leucémie myéloïde chronique. Les critères d'évaluation comprendront la taille finale de l'échantillon nécessaire, le taux d'erreur de type I (la proportion de jeux de données pour lesquels l'hypothèse nulle de non BE (H0) est rejetée en simulant sous H0), et la puissance (la proportion de jeux de données pour lesquels H0 est rejetée en simulant sous l'hypothèse alternative de BE).
En savoir plus :No link
Stage M2 Statistique Bioequivalence 2025.pdf
Contact :florence.loingeville@univ-lille.fr
Post-Doc in Machine Learning (Multiple Fairness in Recommending Systems)
Publiée le 05/02/2025 10:39.
Référence : Postdoc in Télécom Paris.
CDD, Télécom Paris, 19 Place Marguerite Perey, 91120 Palaiseau.
Entreprise/Organisme :Télécom Paris
Niveau d'études :Doctorat
Date de début :Printemps 2025
Durée du contrat :18 ou 36 mois
Secteur d'activité :Intelligence Artificielle
Description :Post-Doc in Machine Learning (Multiple Fairness in Recommending Systems) The group dedicated to Research in Machine Learning, Statistics & Signal Processing (the research group S2A) in Télécom Paris is recruiting a postdoc in Machine Learning (18 months contact, extendable to 36 months). The post-doc recruited will take part in an interdisciplinary collaborative research project involving the SES (Economics and Social Sciences) department of Télécom Paris and the Caisse des Dépôts et Consignations, a leading French public financial institution. Research assignment Research activities will focus on fairness issues for recommendation engines designed by means of machine-learning methods. With the explosion of digitized content available online, recommender systems have become an essential technology and a key element in the development of new services. In a commercial context, the algorithmic principles at work (e.g. collaborative filtering, user/content-based methods, hybrid approaches) in their operation are most often aimed exclusively at maximizing user satisfaction and increasing the platform's level of use. In the context of a public service, many other criteria and objectives must be integrated to ensure a fair service from the point of view of both users and suppliers (multi-sided fairness). It is precisely the subject of this collaborative project to propose and analyze (theoretically and empirically) methods for achieving acceptable trade-offs between the relevance of recommendations and bias mitigation. In addition to producing methodological research, the post-doc's mission will also include applied work on the current version of a deployed recommendation system, aimed at quantifying the presence of different types of bias resulting from its operation. Keywords: public service recommender system, fair and explainable AI, bias mitigation, multi-sided fairness Supervision: the recruit will work under the supervision of Sephan Clémençon (https://perso.telecom-paristech.fr/clemenco/) Winston Maxwell (https://www.telecom-paris.fr/winston-maxwell). Charlotte Laclau (https://laclauc.github.io/) Skills Education : PhD in Computer Science or in Applied Maths A short international postdoctoral experience is welcome but not mandatory English: fluent Expertise in Python programming, familiarity with database queries Capacity to work in a team and develop good relationships with colleagues in other disciplines Excellent writing and pedagogical skills Knowledge and experience required Research publications in Machine Learning (e.g. in Neurips, ICML, AISTATS, …) Knowledge of how recommending systems work Taste for AI applications and interest in its societal aspects Additional information The position does not involve teaching. However, on a voluntary basis, the postdoc recruited may take part in machine-learning courses (undergraduate/master level) coordinated by the supervisory team. The position 18 months position (extendable to 36 months) Télécom Paris, 9 place Marguerite Perey - 91120 Palaiseau - France Application Applicants should submit a single PDF file that includes: motivation letter curriculum vitae one or two major publications contact information for one or two references Important dates First-Quarter 2025: interviews with candidates (by visio-conference eventually) Spring 2025: beginning Contact for information/application Stephan Clémençon stephan.clemencon@telecom-paris.fr Charlotte Laclau charlotte.laclau@telecom-paris.fr Winston Maxwell winston.maxwell@telecom-paris.fr Related Websites https://s2a.telecom-paris.fr/ www.telecom-paris.fr/ai-ethics
En savoir plus :https://s2a.telecom-paris.fr/
Post-Doc in Machine Learning (Multiple Fairness in Recommending Systems).pdf
Contact :stephan.clemencon@telecom-paris.fr
Modélisation par chaînes de Markov couplées de la dynamique conjointe d'occurrences de séismes
Publiée le 28/01/2025 09:13.
Référence : Stage M2 modélisation d'occurrence de séismes par HMM couplés.
Stage, Unité MIAT - Toulouse.
Entreprise/Organisme :INRAE
Niveau d'études :Master
Sujet :voir pdf joint
Date de début :1er avril 2025
Durée du contrat :5 ou 6 mois
Rémunération :gratification de M2, environ 600 euros par mois
Secteur d'activité :Recherche
Description :Le stage concerne la modélisation spatio-temporelle de l'occurence des séismes, dans le cadre des Chaînes de Markov Cachées (Hidden Markov Models, HMM en anglais) pour la dynamique temporelle, couplées entre des lieux différents d'une même province géologique pour l'aspect spatial. Il s'agira de formaliser un ou plusieurs modèles, inférer des paramètres d'intérêt sur des données réelles, et interpréter les résultats.
En savoir plus :https://miat.inrae.fr/
sujetM2_CHMM_et_seisme.pdf
Contact :nathalie.peyrard@inrae.fr
Docteur en ML/ deep learning sur des données de monitoring
Publiée le 23/01/2025 10:00.
CDI, Pays de la Loire (Laval, Le Mans, Angers, Nantes ou La Roche sur Yon).
Entreprise/Organisme :Seenovia
Niveau d'études :Doctorat
Secteur d'activité :Agriculture
Description :Seenovia est une entreprise de conseil en élevage forte de 500 collaborateurs et implantée sur les Pays de la Loire (www.seenovia.fr). Seenovia est également membre de groupe Seenergi (www.seenergi.fr). Chaque jour, nous proposons un accompagnement à nos 5 000 éleveurs-adhérents et clients qui leur permet de développer leurs projets, de bien vivre de leur métier et d’anticiper les enjeux du futur dans leurs exploitations. Pour cela, nos équipes déploient du conseil, des produits, des solutions innovantes et sur-mesure en phase avec les enjeux numériques, sociétaux, environnementaux et économiques du monde agricole. Le pôle Recherche et Développement a la charge de créer de nouveaux indicateurs/services répondant à ces enjeux et souhaite renforcer ses compétences. Seenovia est doté d’une société de monitoring spécialisée dans des capteurs embarqués sur les animaux, permettant ainsi la conduite des travaux R&D de manière très efficace. Profil recherché : Doctorat en Deep Learning, avec une expertise en analyse et traitement de données issues de capteurs ou systèmes connectés. Compétences : - Excellente maîtrise de langages de programmation tels que Python ou R. - Solide expérience avec des frameworks et bibliothèques de Machine Learning, notamment TensorFlow, PyTorch, Scikit-learn, ou équivalents. - Connaissances en manipulation et structuration de données à grande échelle, notamment avec des outils comme Delta Lake. - Capacité à intégrer et à optimiser des modèles d'apprentissage dans des chaînes de traitement de données complexes. - Familiarité avec les plateformes cloud en particulier Azure notamment pour le déploiement de modèles d’apprentissage automatique. - Maîtrise des pipelines CI/CD pour automatiser et gérer les processus de développement et de déploiement ainsi que les outils de versionnement du code comme git. Missions : - Chargé de projet R&D (75% du temps) : Concevoir et développer des algorithmes et modèles de Deep Learning pour fournir des indicateurs de pilotage innovants et pertinents pour nos adhérents. Travaux de recherche en lien avec : Iotee www.iotee.fr Seenergi www.seenergi.fr - Soutien à la chaine de traitement des données des services Iotee en interface avec les équipes Système d’Information Seenovia/Seenergi et IOtee. (25% du temps). Pour ce poste en CDI basé en Pays de la Loire (Nantes, Angers, Laval, Le Mans, La Roche sur Yon), une organisation en télétravail est possible jusqu’à 3 jours par semaine. Vous aimez travaillez en équipe sur des sujets variés et transversaux, en faire éventuellement profiter la communauté scientifique (publication, participation et intervention lors de congrès) alors venez rejoindre notre équipe R&D composée d’une dizaine d’ingénieurs. Si vous êtes prêt à relever le défi, envoyer votre CV + lettre de motivation à recrutement@seenovia.fr
En savoir plus :www.seenovia.fr
Offre d'emploi Seenovia -Docteur en Deep Learning.pdf
Contact :recrutement@seenovia.fr
Modeling exposure to air pollutants based on daily human mobility in urban areas
Publiée le 23/01/2025 10:00.
Postdoc, TIMC – Équipe EPSP, domaine de la merci, La Tronche, France.
Entreprise/Organisme :Laboratoire TIMC, UMR CNRS 5525, Equipe Environnement et Prévention en Santé des Populations
Niveau d'études :Autre
Date de début :courant de février 2025
Durée du contrat :18 mois
Description :Background The transport sector is the leading emitter with more than 30% of greenhouse gas (GHG) emissions. As part of the ecological and energy transition, the Mobility Orientation Law (MOL) aims to provide mobility solutions for all by transforming the right to transport into the right to mobility. The objectives of the MOL include the following issues: • Solidary mobility: social and territorial cohesion; • Reducing GHG emissions and combating pollution; • Developing shared mobility and active mobility, including the requirement for a component relating to the continuity and security of pedestrian and cycle routes. In this context, the EcoMobiliSim project aims to provide local authorities with assistance with mobility policies by simulating multimodal transport plans and indices of environmental and health impacts. From a health risk perspective, multimodal mobility generates heterogeneity in the exposure of populations to given sources. The problem of heterogeneity of exposure comes from the fact that individuals in the same population are not exposed in the same way to different sources of pollution or pathogens. This results in variability in the impacts on individuals for non-communicable and/or communicable diseases. The figure opposite illustrates the exposure trajectories of two individuals in a territory subdivided into six sectors. As can be seen, one of the individuals will only be exposed to the infectious source when passing through sector 2 while the other individual will be exposed to both pollution and infectious sources and for different durations. As a result, individual exposures vary with the mobility of individuals and therefore become curvilinear functions of the concentration of pollutants and pathogens encountered. In such a situation, risk assessment requires: (i) - identifying and locating the sources of pollution and infection and (ii) - characterizing and describing the mobility of individuals. Objectives The main objectives of this work are to model (i) – daily human mobility in urban areas and (ii) – the exposure of users to atmospheric pollutants based on their daily mobility journeys. Methods The methodology for carrying out this project includes three phases: (1) Develop and build a model of daily human mobility in an urban area described by a mobility network. For this, we will use public transport data from the urban area, taking into account the population structure according to socio-economic factors and daily and seasonal variability. The ultimate objective is to build a stochastic origin-destination matrix describing the daily trajectories (at the hourly scale) of individuals in the study area described by a mobility network. This mobility model will be used in modeling exposures to air pollutants and in modeling the transmission of infectious diseases. (2) Develop an interpolation and/or extrapolation model of air pollutant concentrations (PM2.5, PM10, O3, NO2, SO2, CO) at the mobility network scale. For this work, we will use field data (mobility network) and data from the air quality agency. Measurements of atmospheric pollutant concentration data will therefore have to be carried out on the mobility network. (3) Estimate the exposures of populations according to their mobility profiles and trajectories, and calculate the characteristic scores of mobility journeys. Profile of the candidate and required skills • Statistical analysis and modeling, analysis of complex networks, statistical mechanics • Knowledge of R, Qgis, GIS software and programming ability in R and/or Python • Rigor, autonomy, initiative, enthusiasm, curiosity • Good writing skills • Good level of English • Ability to communicate and work in a team Practical information: • Persons in charge: Dominique Bicout & Christine Demeilliers, UMR 5525, TIMC-EPSP (Université Grenoble Alpes) • Location of the post-doc: TIMC – Équipe EPSP, domaine de la merci, La Tronche, France • Collaboration: E. Braillon-Gilet, Cognidis • Funding: 18 months of post-doctorate provided by the EcoMobiliSim project funded by the Auvergne-Rhône-Alpes region • Start of the post-doc: flexible from February 2025 • How to apply? : Send by email to Dominique Bicout (dominique.bicout@univ-grenoblealpes. fr) and Christine Demeilliers (christine.demilliers@univ-grenoble-alpes.fr) a cover letter, a detailed CV with proof of the diplomas obtained and the names of two referees to contact.
En savoir plus :No link
Post-Doc_EPSP2025_en.pdf
Contact :christine.demeilliers@univ-grenoble-alpes.fr
BIOSTATISTICIEN/METHODOLOGISTE FFCD
Publiée le 15/01/2025 09:51.
Référence : BIOSTATISTICIEN/METHODOLOGISTE FFCD.
CDI, Dijon.
Entreprise/Organisme :Fédération Francophone de Canérologie Digestive
Niveau d'études :Master
Date de début :ASAP
Durée du contrat :Contrat à Durée Indéterminée
Rémunération :En fonction de l'expérience
Secteur d'activité :Recherche clinique en oncologie digestive
Description :Missions Statistiques : • Conseil méthodologique • Veille méthodologique (dont revue et synthèse de la bibliographie) • Participation et animation des réunions avec les cliniciens notamment réunions de sous- • groupes et Conseil Scientifique. • Élaboration de design d’études en collaboration avec les cliniciens (avec calcul du nombre de sujets nécessaires) • Participation aux réunions avec les partenaires industriels ou académiques • Participation aux réunions équipe projet • Élaboration du plan d’analyses statistiques • Planification, réalisation sous ALTAIR, R, SAS, des analyses statistiques princeps • Rédaction du rapport d'analyses, et présentation des résultats aux cliniciens concernés • Analyses exploratoires, • Aide à la rédaction des publications • Présence aux évènements organisés par la FFCD : conseils scientifiques, formation FFCD, congrès nationaux et internationaux • Formation du personnel et des membres du réseau de la FFCD
En savoir plus :www.ffcd.fr
OFFRE BIOSTAT METHODO FFCD 2025.pdf
Contact :charlene.barraux@u-bourgogne.fr
Internship+PhD position within the project DALLIAE at CEA Saclay, in partnership with ESRF, Centrale
Publiée le 15/01/2025 09:51.
Référence : Internship+PhD position within the project DALLIAE at CEA Saclay, in partnership with ESRF, Centrale.
Stage, Saclay.
Entreprise/Organisme :CEA
Niveau d'études :Master
Sujet :Our team invite for applications to an internship+PhD position in partnership between CEA, the ESRF Synchrotron at Grenoble, Centralesupelec and University of Lorraine on Anomaly Detection on light line of the Synchrotron Deadline for applications : April 2025 All details about the position can be found here
Date de début :April 2025
Durée du contrat :6months+3 years
Rémunération :600 euros per month (internship), 1800 euros per month (PhD)
Secteur d'activité :Causality, Statistics
Description :Our team invite for applications to an internship+PhD position in partnership between CEA, the ESRF Synchrotron at Grenoble, Centralesupelec and University of Lorraine on Anomaly Detection on light line of the Synchrotron Deadline for applications : April 2025 All details about the position can be found here
En savoir plus :https://uranie.cea.fr/index
DALLIAE_Internship.pdf
Contact :marianne.clausel@univ-lorraine.fr
Stage M2 - Classification avec données manquantes
Publiée le 13/01/2025 15:54.
Stage, LPSM, Sorbonne Université, Paris.
Entreprise/Organisme :LPSM, Sorbonne Université, Paris
Niveau d'études :Master
Date de début :Mars-Mai 2025 (à discuter)
Durée du contrat :6 mois
Description :Ce stage vise à étudier les différentes techniques de classification supervisée que l'on peut utiliser en présence de données manquantes dans le jeu d'apprentissage et dans le jeu de test. Des travaux récents ont été réalisés dans un cadre de régression (linéaire). Une attention particulière sera portée à l'étude de la régression logistique en présence de données manquantes. Ce stage peut déboucher sur une thèse débutant en octobre 2025.
En savoir plus :https://erwanscornet.github.io/
Sujet_de_stage-Missing.pdf
Contact :erwan.scornet@polytechnique.edu
Stage M2 - Analyse théorique des forêts aléatoires
Publiée le 13/01/2025 15:54.
Stage, LPSM, Sorbonne Université, Paris.
Entreprise/Organisme :LPSM, Sorbonne Université, Paris
Niveau d'études :Master
Date de début :Mars-Mai 2025 (à discuter)
Description :Ce stage vise à étudier certaines propriétés théoriques des forêts aléatoires. Il a été observé empiriquement que l'ajout de variables de bruit permettait d'améliorer les performances prédictives des forêts aléatoires. Une explication fournie est la régularisation induite par l'ajout de ces variables de bruit. Ce stage vise à montrer théoriquement que l'ajout de variable de bruit entraîne une régularisation de la forêt, mesurée via l'importance des variables (MDI). Ce stage peut déboucher sur une thèse débutant en octobre 2025.
En savoir plus :https://erwanscornet.github.io/
Sujet_de_stage-RF.pdf
Contact :erwan.scornet@polytechnique.edu
Analyse des ECG et prédiction de patients à risque avec apprentissage profond
Publiée le 13/01/2025 15:54.
CDD, Poitiers, France.
Entreprise/Organisme :CHU de Poitiers
Niveau d'études :Doctorat
Date de début :Au plus vite
Durée du contrat :1 an
Description :1. Contexte et motivation L'insuffisance cardiaque (IC) touche plus d'un million de personnes et est responsable de plus de 160 000 hospitalisations et 70 000 décès par an en France. Elle constitue un problème de santé publique en raison de l'augmentation de sa prévalence due au vieillissement de la population. En pratique clinique, le signal électrique cardiaque est analysé au moyen de l’électrocardiogramme (ECG) 12 dérivations. Lors de la réalisation d’un ECG, de très nombreuses données brutes sont collectées afin de transformer le signal électrique en images exploitables par les cliniciens. Outre l’aspect statique de ces images, ce traitement entraine une déperdition de l’information initiale. Pourtant, ces données brutes pourraient être exploitées dans leur entièreté sous forme de données tabulaires afin d’avoir une description bien plus fine du signal électrique cardiaque. Ce type d’analyse pourrait permettre de détecter des variabilités non perceptibles sur l’image et annonciatrices de la survenue de futurs symptômes cliniques. Depuis 2018, au CHU de Poitiers les données brutes des ECG 12 dérivations sont systématiquement sauvegardées pour les patients ayant bénéficié d’une hospitalisation ou d’une consultation programmée dans le cadre du suivi de leur IC chronique. La mobilisation de l’ensemble de ces données est facilitée par la mise en place d’un entrepôt de données de santé (EDS) dans cet établissement. Les méthodes à base de CNN ont montré leur efficacité dans la reconnaissance de motifs répétitifs pour des tâches de classification. Leurs avantages résident notamment dans leur capacité à exploiter la totalité des données ECG, à apprendre automatiquement des caractéristiques à partir de grandes quantités de données, éliminant ainsi le besoin d’ingénierie manuelle des caractéristiques. De plus, cette méthode permet de suivre le processus d’apprentissage et d’interpréter les résultats de la prédiction. Dans ce projet, nous voulons concevoir un modèle de prédiction à court terme des patients à risque de décès ou d’hospitalisation pour IC qui nous permettrait de mettre en place des stratégies de prévention ciblées. 2. Développements proposés Des modèles prédictifs à partir des données ECG avec et sans les données cliniques seront obtenus par des réseaux de neurones convolutifs. Les réseaux de neurones convolutifs (CNN) la capacité d’apprendre automatiquement des caractéristiques à partir de grandes quantités de données, éliminant ainsi le besoin d’ingénierie manuelle des caractéristiques, mais la compréhension de leur raisonnement reste compliquée. Par ailleurs, nous recherchons les paramètres ou les zones d’intérêts des signaux électriques statiques des ECG les plus pertinents dans l'association avec le risque d’hospitalisation pour IC. La capacité prédictive du modèle sera évaluée sur la base d'apprentissage et de validation. Au regard de déséquilibre de deux classes à prédire, l'étape d'augmentation de données sera probablement nécessaire. Au-delà de la qualité de la discrimination, il existe un vrai enjeu d’interprétation. En effet, les modèles CNN sont souvent considérés comme des "boîtes noires", manquant de transparence dans leurs processus de décision. Pour surmonter ces défis, cette étude est dédiée au développement d'un modèle capable non seulement de gérer la tâche de classification automatique des signaux ECG multiclasses déséquilibrés, mais aussi de posséder un haut degré d'interprétabilité pour répondre aux besoins professionnels du domaine du diagnostic médical. 3. Compétences requises et profil souhaité - Thèse d’université dans le domaine des traitements du signal, informatique, intelligence artificielle, traitement de données, apprentissage profond, … - Une bonne connaissance en traitement de signaux et une aisance avec les outils nécessaires à leur manipulation est indispensable (python/matlab, linux shell scripting) - Une expérience préalable en apprentissage profond est indispensable - La (le) candidat(e) devra en outre avoir les qualités humaines et relationnelles adaptées au travail au sein d'une équipe pluridisciplinaire intégrant des médecins, des informaticiens, ingénieurs et des biostatisticiens.
En savoir plus :https://doctorat.campusfrance.org/CF202440851
Sujet_IC_PostDoc.pdf
Contact :olena.tankyevych@chu-poitiers.fr
Clustering of dependent data
Publiée le 13/01/2025 15:54.
Stage, Jouy-en-Josas.
Entreprise/Organisme :Université Paris-Saclay, INRAE
Niveau d'études :Master
Date de début :1er semestre 2025
Durée du contrat :5 à 6 mois
Secteur d'activité :Statistiques
Description :Voir fichier joint.
En savoir plus :https://maiage.inrae.fr/
stagem2-znaulet.pdf
Contact :znaulet@inrae.fr
STAGE EN DATA SCIENCE / EXPLOITER LES LLM POUR LA REDACTION SCIENTIFIQUE ET MEDICALE
Publiée le 13/01/2025 15:54.
Référence : ST025_DS.
Stage, Saint-Herblain (Nantes).
Entreprise/Organisme :Biofortis
Niveau d'études :Master
Sujet :EXPLOITER LES LLM POUR LA REDACTION SCIENTIFIQUE ET MEDICALE
Durée du contrat :Stage
Rémunération :Convention de stage
Description :Ce projet vise à évaluer et comparer les performances de différentes solutions LLM (par exemple des modèles de type GPT), dans la génération de protocoles et rapports (et résumés) d'études cliniques sur des architectures privées et sécurisées.
En savoir plus :https://www.biofortis.fr
Offre de stage_M2_LLM_Final.pdf
Contact :diego.tomassi@biofortis.fr
Master internship in applied statistics
Publiée le 09/01/2025 15:14.
Stage, Toulouse, France.
Entreprise/Organisme :INRAE, unit MIAT
Niveau d'études :Master
Sujet :Study of deer behavior based on accelerometry data: generation of realistic data to evaluate the performances of a hidden semi-Markov model
Date de début :April, 1 2025
Durée du contrat :4-6 months
Rémunération :The internship will be remunerated at the current hourly rate (4.35 € per hour in 2024)
Description :We propose a master internship in statistics applied to behavioral ecology. The goal is to implement a framework for realistic simulations, in order to analyse the performances of an approach based on a hidden semi-markov model.
En savoir plus :https://miat.inrae.fr/
Internship_accelero_behavior_deers_2025.pdf
Contact :sandra.plancade@inrae.fr
PhD offers at Telecom Paris, Institut Polytechnique de Paris
Publiée le 09/01/2025 15:13.
Référence : PhD offers at Telecom Paris, Institut Polytechnique de Paris.
Thèse, Palaiseau (91).
Entreprise/Organisme :Telecom Paris, Institut Polytechnique de Paris
Niveau d'études :Master
Sujet :Hello, We are hiring 2 PhD students to work on combining language models with structured data, starting from September 2025, at Telecom Paris, Institut Polytechnique de Paris. Large Language Models are amazing, and with our research project, we aim to make them even more amazing! Our project will connect large language models to structured knowledge such as knowledge bases or databases. With this, 1. language models will stop hallucinating 2. language models can be audited and updated reliably 3. language models will become smaller and thus more eco-friendly and deployable We work in the DIG team at Telecom Paris, one of the finest engineering schools in France, and part of Institute Polytechnique de Paris — ranked 38th in the world by the QS ranking. The institute is 45 min away from Paris by public transport, and located in the green of the Plateau de Saclay. Excited about joining us? Tick these boxes: 1. Have a good background in natural language processing, machine learning, and knowledge representation 2. Have a master's degree (or equivalent) 3. Be of European nationality (imposed by our sponsor, the French Ministry of Armed Forces) Check out our Web site to apply: https://suchanek.name/work/research/kb-lm/index.html Fabian Suchanek & Nils Holzenberger
Description :Hello, We are hiring 2 PhD students to work on combining language models with structured data, starting from September 2025, at Telecom Paris, Institut Polytechnique de Paris. Large Language Models are amazing, and with our research project, we aim to make them even more amazing! Our project will connect large language models to structured knowledge such as knowledge bases or databases. With this, 1. language models will stop hallucinating 2. language models can be audited and updated reliably 3. language models will become smaller and thus more eco-friendly and deployable We work in the DIG team at Telecom Paris, one of the finest engineering schools in France, and part of Institute Polytechnique de Paris — ranked 38th in the world by the QS ranking. The institute is 45 min away from Paris by public transport, and located in the green of the Plateau de Saclay. Excited about joining us? Tick these boxes: 1. Have a good background in natural language processing, machine learning, and knowledge representation 2. Have a master's degree (or equivalent) 3. Be of European nationality (imposed by our sponsor, the French Ministry of Armed Forces) Check out our Web site to apply: https://suchanek.name/work/research/kb-lm/index.html Fabian Suchanek & Nils Holzenberger
En savoir plus :https://suchanek.name/work/research/kb-lm/index.html
Contact :nils.holzenberger@telecom-paris.fr

Page précédente  1  2  <3>  4  5  Page suivante

 
 
©2025 SFdS
Société Française de Statistique
Institut Henri Poincaré
11 rue Pierre et Marie Curie
75231 Paris cedex 5
Tél. : +33 (0)1 44 27 66 60
Notre site a été supporté par :