Aller au contenu principal

Offre de Stage Master 2 ou Ingénieur 5ième année

Analyse des pleurs de nouveau-nés prématurés par une approche Deep Learning appliquée à des enregistrements audio et vidéo

Le nombre de naissances prématurées représente 7% des naissances en France. Ces bébés sont pris en charge en unités de soins intensifs néonatales et font l’objet d’une surveillance spécifique du fait de l’immaturité de leurs fonctions vitales.
Il est maintenant établi que la caractérisation des pleurs de prématurés, en particulier par leur contenu fréquentiel, permet d’obtenir des informations sur leur état de santé et sur leur maturation. Des méthodes automatiques d’extraction et d’analyse des pleurs permettraient donc d’améliorer le suivi du développement des bébés et de traiter des volumes de données importants. Malheureusement, les approches classiques, basées sur le calcul de l’énergie du signal sonore, rencontrent des limites lorsqu’elles sont appliquées à des enregistrements réalisés en clinique car l’environnement est très bruité (voix d’adultes, alarmes...).

Dans une approche récemment développée au LTSI, une méthode d’extraction automatique des pleurs de bébés prématurés a été développée et appliquée à des enregistrements réalisés à l’hôpital. La première étape, basée sur l’analyse conjointe de l’audio et du mouvement issu de la vidéo, permet la segmentation des événements sonores. Puis une étape de classification exploitant des réseaux de neurones convolutifs, alimentés par les spectrogrammes des segments sonores, permet de séparer les pleurs des autres sons. Cette approche préliminaire fournit des résultats encourageants mais plusieurs améliorations doivent encore être apportées.

Le travail à réaliser est à l’interface du traitement du signal, du traitement d’images et de l’analyse de vidéos. Les tâches suivantes seront menées par le stagiaire :    

  • Prise en mains des outils existants au laboratoire de traitement des données audio et vidéo
  • Amélioration de l’algorithme de Deep Learning (ex : réalisation de l’apprentissage du réseau de neurones à partir d’images de spectrogrammes de signaux sonores)
  • Mise en œuvre d’une approche de type AVSR (Audio Visual Speech Recognition) exploitant conjointement la vidéo (et non plus le mouvement) et l’audio pour détecter les pleurs
  • Application à une base de données complète, pour l’évaluation de la maturation et la détection de l’infection.

Ce travail se déroulera en étroite collaboration avec les médecins du CHU de Rennes.
Profil recherché :

  •  Master 2 ou Ingénieur 5ième année (en cours)
  • Intérêt pour la recherche biomédicale 
  • Maîtrise du langage Python
  • Bonnes connaissances en Machine Learning / Deep Learning
  • Bon niveau en anglais
  • Une expertise dans le traitement du son sera appréciée

Contact : Fabienne PORÉE, LTSI – INSERM U1099, Université Rennes 1 (fabienne.poree@univ-rennes.fr)