AXES DE RECHERCHE LIASD-EID

Thème 1 : Intégration sémantique de réseaux de données hétérogènes et interopérabilité

Responsable : Myriam Lamolle

Grâce aux nouvelles technologies liées au web, les échanges de données entre utilisateurs, entre utilisateurs et applications, ou entre applications sont de plus en plus conséquents. Notamment, l'arrivée du Web 3.0 et des données ouvertes ou Linked Open Data (LOD) ainsi que la profusion de données massives provenant de systèmes d'informations, de capteurs, de satellites, etc. a induit une augmentation de l'hétérogénéité des informations à gérer.

D'autre part, de plus en plus d'informations sont échangées par des collaborateurs via les nouvelles plateformes de collaboration. Ceci induit un nouveau type d'intégration à savoir l'intégration de données "ambiantes" (par exemple, informations échangées par courriel à intégrer dans le S.I.). Une nouvelle vision des concepts d'intégration et d'interopérabilité est nécessaire. La collecte des informations pertinentes devient encore plus difficile puisque les données proviennent de sources encore plus hétérogènes (bases de données réseaux sociaux, données non structurées, Open Data, Big Data). Les données représentant le même concept sont structurées totalement différemment selon le système de stockage. Cependant, il est indispensable de retrouver la sémantique attachée à ces données malgré leurs structurations différentes. Pour faciliter l'interopérabilité entre les différents systèmes d'information et leurs applications, nous nous proposons de réduire "la distance" les séparant par :

  • l'appréhension de leurs modèles et leurs métamodèles pour en obtenir une vue unifiée, (approche matérielle ou approche virtualisée selon le cas),

  • l'amélioration des techniques d'alignement de ces modèles et de leurs données,

  • la mise en place de règles de transformation automatique de modèles.

Nous chercherons à déterminer à partir des différents schémas ou des données collectées, des ontologies.

Actuellement, nous affinons notre principe d'intégration sémantique de réseaux d'information dans divers projets par des approches provenant du Web Sémantique, du Big Data/Deep Learning ou par hybridation de ces deux champs.

 

Thème 2 : Gestion de l'incohérence et de la défaisabilité dans les ontologies

Responsables : Sihem Belabbes et Nédra Mellouli

Le problème de la gestion de l’incohérence dans les bases de connaissances a été largement étudié dans plusieurs formalismes logiques. En particulier, l'interrogation des ontologies formelles spécifiées en logiques de description est une tâche de raisonnement importante qui concerne de nombreux domaines d’application. Il est d’usage de supposer que les connaissances terminologiques de l’ontologie (Terminological Box ou TBox) sont fiables et sans conflits, car elles sont obtenues d’experts du domaine d’intérêt. Cependant, les données de l’ontologie (Assertion Box ou ABox) proviennent souvent de plusieurs sources hétérogènes et sont potentiellement contradictoires avec les éléments de la TBox. Plusieurs stratégies, dites des sémantiques tolérantes à l'incohérence, ont été proposées pour permettre de déduire des réponses aux requêtes en présence d'incohérence. Ces sémantiques évaluent les requêtes sur des réparations de la base ABox, qui sont des sous-ensembles maximaux cohérents. Le fragment léger DL-Lite permet de répondre aux requêtes en un temps traitable. Cependant, lorsque les données de la base ABox sont munies d'une relation de préférence, telle qu'un préordre total ou partiel, ou d'une mesure d'incertitude, la traitabilité n'est plus assurée.

Le problème de la modélisation et du raisonnement en présence de défaisabilité dans les ontologies est abordé en soulignant l’intérêt de l'approche préférentielle lorsqu'elle est appliquée à des langages riches de logique de description (DL). Les différents formalismes fondés sur les DL proposés présentent de multiples avantages : ils sont simples et intuitifs ; ils ont tous une syntaxe et une sémantique propres ; ils sont faciles à mettre en oeuvre ; ils sont tous décidables, et ils n'ajoutent pas à la complexité calculatoire du langage de description classique sur lequel ils s'appuient. L’intérêt de cette approche repose principalement sur les nuances de raisonnement jusqu'à présent largement inexplorées par la communauté et sur la proposition d'un cadre complet pour le raisonnement multiforme dans les ontologies DL. Les ontologies et les graphes de connaissances sont des méthodes qui facilitent la représentation d’une manière cohérente. Elles permettent de comprendre les données, interpréter et expliquer des résultats. Cependant, elles ne peuvent pas être exploitées telles qu’elles dans une tâche d’apprentissage où nous cherchons à généraliser des structures existantes dans les données d’origine. Parallèlement, la capacité de généralisation des modèles par apprentissage profond a été largement approuvée dans différents domaines ces dix dernières années. Nous proposons de combiner les avantages des deux approches à la fois pour intégrer des noeuds multi-modaux, enrichir les connaissances par déduction et induire de nouvelles par apprentissage.

 

Thème 3 : Plongement de graphes multimodaux

Responsable : Mario Cataldi

Inspirés des architectures proposées par node2vec et surtout de DeepWalk, nous avons proposé d’étendre ce dernier aux séries multivariées spatio-temporelles pour la détection d’anomalies. Nous proposons un modèle de plongement d’une série temporelle pour apprendre les différentes représentations dans le temps où un noeud représente un motif temporel et les relations sont des transitions internes. Ensuite, nous définissons des relations externes entre les noeuds fondées sur la similarité spatiale (telle que la distance de Haversine) puisque la même donnée peut être spatiale (par exemple les données de l’humidité de l’air sont des valeurs spatio-temporelles qui peuvent être relevées à différents moments de la journée et dans différents sites géographiques). L'objectif est de prédire les noeuds voisins à partir d'un noeud donné dans une séquence. Un premier modèle a été implémenté dans le cadre d’une thèse (Hanen Balti 2019-2023) en collaboration avec le centre de recherche climatique à Pékin pour une prédiction interprétable de la sécheresse en Chine. Ce même modèle a été appliqué pour le même objectif sur des données climatiques de la Tunisie. A l’issue de ces travaux, nous avons rencontré deux limites : l’intégration de données textuelles ou images, le temps de calcul lié à la densité des graphes. Ces travaux se poursuivent autour de l’extension de ce modèle à des données multimodales pour intégrer cette fois des modalités de connaissances hétérogènes en particulier du texte et de l’image. Une thèse sur le sujet est financée par une bourse doctorale de l’école doctorale CLI. D’un point de vue complexité de calcul, nous proposons de nouveaux mécanismes permettant de réduire en amont de l’apprentissage la dimension du graphe. Ce procédé a été testé pour la détection de thèmes pour l’analyse et le suivi efficace de l’évolution de l’information exprimée dans un réseau social tel que le réseau des publications scientifiques DBLP. En particulier, de nouvelles mesures sont proposées pour identifier les relations qui existent entre les utilisateurs et entre les contenus. Ceci a amené à développer de nouvelles techniques pour modéliser ces informations comme un graphe social où il est possible de suivre les thèmes les plus émergents dans une communauté. Afin de mieux évaluer la nature dynamique de contenus, de nouveaux paramètres de nature temporelle ont été introduits qui permettent de suivre en temps réel le flux d'information à l'intérieur d'un réseau social. Enfin, cette étape de réduction doit conserver autant que possible les propriétés et les relations entre les noeuds du graphe tout en réduisant sa dimension.

 

Thème 4 : Résumé automatique de documents textuels

Responsable : Aurélien Bossard

Avec l'émergence de l'apprentissage profond, le domaine du résumé automatique de texte a opéré une bascule des techniques extractives, c'est-à-dire créant un résumé en plaçant bout à bout des phrases ou morceaux de texte issus des documents source, vers des techniques génératives, c'est-à-dire générant un nouveau texte à partir des documents source. Ces systèmes génératifs nécessitent de larges données d'entraînement, et leur utilisation a été rendue possible grâce à l'apparition de nouveaux corpus en anglais de plusieurs centaines de milliers de paires documents/résumés. Cependant, le résumé automatique est une tâche très complexe. Bien résumer un texte nécessite de le comprendre finement afin de générer un texte condensé n'en contenant que les informations essentielles, articulées de manière logique. Malgré la difficulté de la tâche, la très grande majorité des évaluations proposées et avancées dans les articles sont automatiques et comparent un résumé à évaluer avec un résumé de référence. De telles évaluations ne sont pas suffisantes : la qualité de la langue n'est pas évaluée, et dans le cas des corpus utilisés pour la génération, la qualité des résumés de référence ne permet pas une évaluation robuste. Notre contribution consiste à évaluer la génération présente dans les résumés issus de modèles génératifs, d'un point de vue quantitatif et qualitatif. Le projet ANR-Jeune Chercheur ASADERA (Automatic Summarization at the All-Digital ERA, 2017-2021) a pu contribuer dans cette thématique en fédérant plusieurs chercheurs de l’équipe EID et a été source de financement de la thèse de Valentin Nyzam (2019-2021). Dans cette perspective, nous chercherons à établir un protocole unifié pour une meilleure évaluation des résumés en l’applicant sur les corpus les plus utilisés dans la littérature tels que CNN, Dailymail, PubMed.

 

Thème 5 : Données manquantes et séries temporelles irrégulières

Responsable : Nédra mellouli

Les données manquantes sont l’angle mort des algorithmes d’apprentissage machine. Par exemple, le manque de données peut provoquer un déséquilibre des données de l’apprentissage en termes de représentativité des différentes classes. Nous pouvons également manquer de données correctement labellisées pour des raisons de coût. Ces deux problèmes sont très récurrents en apprentissage où des algorithmes d’imputation sont largement disponibles dans la littérature. À notre connaissance, ils sont décorrélés de la nature des données en termes de relation telle que la causalité ou l’aléatoire. Certains domaines, notamment en santé, exigent que les algorithmes d’imputations respectent la relation de causalité entre les données traitées. Bien que cette relation de causalité soit facilement formalisée, il est très complexe de la généraliser pour des données temporelles irrégulières. En effet, l’irrégularité des séries temporelles est un sujet de recherche prioritaire quand il s’agit de traiter des données extrêmement sensibles telles que la prédiction de la mortalité des patients. Depuis deux ans, nous mettons en place des approches des méthodes d’imputation dédiées au domaine de la (E)-santé où les données temporelles doivent être traitées en temps réel. Nous mettons en place différents algorithmes à disposition de la communauté avec une dynamique de recherche pluridisciplinaire avec l’université de technologie de Tallinn et l’université de Roskilde au Danemark, partenaire de l’Alliance d’universités européennes ERUA. Une première évaluation de ces algorithmes a été réalisée sur les données MIMIC-III et MIMIC-IV. Ce travail s’élargit en intégrant deux unités de soins intensifs, l’hôpital de la Fontaine de Saint-Denis et l’hôpital des Gonesse dans le cadre du projet Diaphys (2023-2025) financé via le programme hospitalier de recherche clinique.