Aller au contenu principal

Activités

Activités de l'équipe

 

Interopérabilité et intégration

La première thématique que porte l’équipe est le développement de plateformes et de solutions technologiques permettant l’interopérabilité et l’intégration de données multi-sources.   L'interopérabilité technique, syntaxique, sémantique et organisationnelle est fondamentale à chaque étape du traitement des données. Les systèmes informatiques de santé actuels fonctionnent avec une grande variété de formats de données, de spécifications personnalisées et de sémantiques ambiguës, y compris des données cliniques textuelles. Les données non structurées (qui représentent plus de 80 % du contenu des dossiers médicaux électroniques) sont considérées comme une source d'information essentielle. Bien que les algorithmes de traitement automatique du langage récents affichent de bonnes performances, l'exploitation de ces données reste un défi pour le développement des SIAS. En effet, le nettoyage des données et les procédures de prétraitement du langage naturel sont généralement nécessaires avant l'analyse. De plus, l'exécution d'algorithmes sur des données non structurées et non standardisées peut introduire des erreurs. Par conséquent, l'interopérabilité des données de santé est essentielle pour éviter ces écueils et peut fournir aux algorithmes d'IA des données réellement utilisables. Dans l’équipe, nous implémentons et analysons la capacité des systèmes à s’adapter aux normes internationales (principalement HL7, Dicom, OpenEHR et CDISC), aux terminologies (telles que LOINC, RADLEX, ICD ou SNOMED) et aux bases de données de connaissances dans le but de contribuer à l’amélioration de l'interopérabilité.   De son côté, l'intégration des données de santé est un ensemble de procédés utilisés pour récupérer et combiner des données multi-sources (comptes rendus hospitaliers, PMSI, Anatomo-pathologie, PACS…) en une information significative et utile. Les techniques actuelles d'intégration des données de santé sont principalement basées sur des processus ETL (extract, transform and load) pour ingérer et nettoyer les données, puis les charger dans un entrepôt de données. Avec l'émergence des données massives, les systèmes traditionnels d'entreposage de données atteignent leurs limites pour les traiter. Cela accroît le besoin d'amélioration et nécessite l'utilisation de technologies plus efficaces et plus puissantes (telles que Hadoop & Spark et les bases de données NoSQL). Les méthodes traditionnelles d'intégration des données sont réalisées par traitement par lots (données au repos), alors que l'intégration des données massives peut se faire en temps réel ou avec un traitement par lots. Cela réorganise les phases ETL, qui deviennent ELT dans certains cas, de sorte que les données sont extraites, chargées dans des systèmes de fichiers distribués, puis transformées avant d'être utilisées. Dans ce nouveau paradigme, trois approches méthodologiques sont actuellement utilisées : Schema Mapping, Record Linkage et Data Fusion.   Ces éléments sont intégrés à la technologie eHop d'entrepôt de données développée dans le cadre du LITIS Labcom, en partenariat avec la société Enovacom/Orange HealthCare. L’équipe dirige les développements et les déploiements de cette technologie au sein de plusieurs d’hôpitaux en France.   D’autre part, l’équipe se penche sur la confiance, la sécurité et le partage des données de santé. En effet, l'apprentissage automatique repose sur la disponibilité d'une grande quantité de données pour l’entraînement. Cependant, en réalité, la plupart des données médicales sont dispersées dans différentes organisations et ne peuvent pas être facilement intégrées en raison de nombreuses contraintes juridiques et pratiques. De nouvelles approches basées sur l’apprentissage fédéré sont explorées en collaboration avec l'équipe du LATIM.    

Extraction de connaissances

La seconde thématique que porte l’équipe consiste à extraire des connaissances à partir des données massives en santé et modèles prédictifs.   L'un des principaux défis que posent les données massives sur la santé est l'extraction d'informations pertinentes pour produire des phénotypes de qualité. Le phénotypage fait référence à l'utilisation d'algorithmes pour déterminer des caractéristiques médicales ou autres à partir de divers éléments de données. Par exemple, les codes de facturation et les données de laboratoire peuvent permettre d'identifier les patients atteints de certaines pathologies. Cependant, les informations sont souvent dispersées entre plusieurs sources de données et peuvent présenter des incohérences. Les entrepôts de données cliniques sont particulièrement affectés par ces problèmes en raison de l'hétérogénéité des types de données (données non structurées, données structurées) et des sources de données. Le phénotypage est une condition préalable à l'exploitation précise des données. Plusieurs approches peuvent être utilisées pour produire des phénotypes fiables, comme le phénotypage dirigé par des experts, le traitement du langage naturel ou l'apprentissage automatique. Un autre défi consiste à exploiter les données massives de santé pour découvrir des phénotypes inconnus. En effet, plusieurs populations de patients atteints de certaines maladies sont très hétérogènes, que ce soit en ce qui concerne l'évolution de la maladie ou la réponse à un traitement. L'ensemble massif de patients annotés disponibles dans l’entrepôt de données doit permettre d'identifier de nouveaux groupes de patients sur la base de différents niveaux de description : données cliniques, biologiques ou OMICs. Ces nouveaux profils de groupes de patients construits de manière non supervisée sont ensuite analysés pour évaluer leur association avec des événements spécifiques, tels que le décès, l'hospitalisation ou la réponse à des médicaments spécifiques.   Une deuxième utilisation des informations extraites concerne la construction de modèle prédictif. La modélisation prédictive peut servir différents objectifs dans le domaine des soins de santé, tels que l'aide à l'identification des diagnostics, adapter la thérapeutique à l'état des patients ou anticiper des événements futurs. Les données de santé massives fournissent une vue complète du parcours de soins des patients au sein du système de santé et de la séquence des événements qui se sont produits. Le potentiel prédictif de la modélisation des données offre une réelle opportunité d'adapter les soins en fonction de la probabilité qu'un patient présente un certain problème. De nombreux éléments sont à prendre en compte et sont étudiés au sein de notre équipe pour arriver à une application en conditions réelles de ce type d’approche : architecture des modèles, gestion des données manquantes, représentativité base d’apprentissage, capacité de généralisation des modèles, métriques d’évaluation, interprétabilité et explicabilié des méthodes…       intégration   La troisième activité concerne l’implémentation, évaluation en vie réelle et mesure d’impact des connaissances et modèles produits par l’axe 2.   Une fois les modèles disponibles et validés dans un contexte de recherche, il est nécessaire de planifier leur mise en œuvre dans des outils de soutien clinique, qui complètent directement la pratique clinique au chevet du patient. Dans ce contexte, l'équipe DOMASIA est chargée d'aider les partenaires industriels, ainsi que d'incorporer les produits de la recherche dans des outils cliniquement conformes et validés par leur mise en œuvre en situation réelle. L'intégration des systèmes d'aide à la décision demande en plus des mesures de validité statistique, l'évaluation d'autres dimensions, telles que la sécurité, l'efficacité et la satisfaction dans des contextes de vie réelle.   Pour réaliser ces activités, nous bénéficions du lien fort de l'équipe avec le CIC-IT local et de sa participation au réseau CIC-IT, ainsi que de l'implication directe des départements de recherche clinique. Les projets en cours et futurs ont pour but de ou de continuer à produire des outils prêts à l'emploi, qui ont montré des performances prometteuses non seulement dans des contextes expérimentaux, mais aussi dans des contextes de vie réelle.   Finalement, une dernière tâche est nécessaire : la surveillance continue du système afin de pouvoir documenter les changements de performance. Cette performance deviendra une nouvelle donnée pour alimenter le système et fermer la boucle du cycle d'apprentissage. Notre objectif est d'aborder la question de l'amélioration des systèmes, mais aussi et surtout de réinjecter les données de la recherche dans les soins et la vie réelle.