Axe de recherche Intégration et représentation multiple

Présentation

BDMUL traite de l’intégration de données multisources et multi-résolutions. En particulier seront traitées la description des spécifications des bases de données et la conception de méthodes d’appariements basées sur des connaissances imprécises.

L'action de recherche en intégration a été active de 2005 à 2009

Responsable de l'action de recherche :
Sébastien Mustière

-

Contexte

De nombreuses bases de données géographiques coexistent pour représenter un même espace du monde réel. Ces bases ont été réalisées pour répondre à différents besoins (topographie, navigation, urbanisme...) et possèdent différents niveaux d'analyse (échelle du pays, de la ville, des détails topographiques...). Par exemple, la figure suivante présente, superposées à une ortho-photographie, trois différentes représentations d'un même carrefour, dans trois extraits de bases de données de l'IGN avec différentes spécifications (extrait de [Sheeren 2004]). Une gestion relativement indépendante de ces bases pose divers problèmes pour le producteur, comme pour l'utilisateur des données. Tout d'abord il peut y avoir des incohérences entre les bases. Ensuite les efforts de saisie, de maintenance et de mise à jour sont multipliés. Enfin, il est difficile de réaliser des analyses combinant différentes données avec différents points de vue.

Une solution possible à ces problèmes est de rendre explicites les relations entre les divers éléments des bases de données. Le passage de données organisées en un ensemble de bases indépendantes à des données explicitement mises en relation est appelé l'intégration des bases de données. Elle peut résulter en une base dite multi-représentations, où différentes représentations d'un même phénomène coexistent et sont reliées entre elles.

-

Objectifs

L'action de recherche cherche à apporter des réponses aux questions suivantes :

  • Comment créer une base de données multi-représentations à partir de bases de données existantes ?
    Les problèmes abordés sont alors ceux de la modélisation et de la détection de correspondances entre schémas, spécifications et données, ainsi que de la gestion des raccords, des redondances et des incohérences. Cette intégration est le point principal abordé à court terme par l'action de recherche.
  • Comment gérer et manipuler une base de données multi-représentations ?
    Les problèmes abordés sont ceux de la propagation des mises à jour entre diverses représentations, ainsi que ceux de la visualisation et de l’analyse de données avec représentation multiple. Notons que les aspects relatifs à l’architecture logicielle pour la mise à jour ne sont pas abordés par l’action de recherche.

Travaux

Les travaux de l'action de recherche se situent dans la suite de travaux réalisés au laboratoire COGIT sur la gestion de bases de données géographiques depuis une dizaine d'années :

  • thèse de Thomas Devogele [Devogele 1997 ; Devogele et al. 1998] : méthodologie générale pour l’intégration de données géographiques, et conception d’un outil d’appariement de réseaux à différentes échelles a été développé.
  • projet européen MurMur : modélisation des données à représentation multiple, et création d’ateliers de génie logiciel dédiés [MurMur 2000-2002 ; Balley et al. 2004].
  • thèse de Thierry Badard [Badard 2000] : stratégie de mise à jour basée sur des outils d’appariement automatique.
  • thèse de Atef Bel Hadj Ali [Bel Hadj Ali 2001] étude de la qualité des données surfaciques (analyse de la qualité et un outil d’appariement surfacique).
  • thèse de David Sheeren : étude de la cohérence entre représentations, approche à base d’apprentissage automatique.
  • thèse de Nils Gesbert : formalisation des spécifications des bases de données, afin de guider l’intégration de schémas. L’approche s’appuie sur la notion d’ontologie comme référence des concepts géographiques manipulés dans les schémas.
  • nombreuses études d’appariement ont été réalisées par Cécile Lemarié (de 1996 à 2000), Sébastien Mustière (de 2002 à 2005) et Eric Grosso (en 2005) [Mustière 2002].

Chercheurs

Sébastien Mustière travaille sur l'appariement de données géographiques et la manipulation d'ontologies pour l'intégration.

Ana Maria Olteanu est en 2ème année de thèse sur « Appariement de données spatiales par prise en compte de connaissances imprécises ». Elle est dirigée par Anne Ruas, encadrée par Sébastien Mustière, et inscrite à l’université de Marne-La-Vallée (école doctorale ICMS).

Eric Grosso : adapter GéOxygène au cas particulier des données multi-représentées, autant en terme de modélisation et de stockage que de visualisation et manipulation.

Nathalie Abadie : dans la suite de la thèse de Nils Gesbert, développer un outil convivial de saisie des spécifications des BD Geo.

Christelle Pierkot est en 3ème année de thèse (EADS, IRIT, COGIT) sous la direction de Abdelkader Hameurlain (IRIT-Toulouse) et Sébastien Mustière (COGIT) : la modélisation des métadonnées pour faciliter la mise à jour des données, dans un contexte où de nombreux acteurs partagent, échangent, manipulent et mettent à jour les mêmes données géographiques.

Thèses COGIT sur le sujet

  • 2012, Nathalie Abadie :
    Formalisation, acquisition et mise en œuvre de connaissances pour l’intégration virtuelle de bases de données géographiques: Les spécifications au cœur du processus d’intégration
    Dirigée par Anne Ruas
    Co-encadrement : Sébastien Mustière

    - Télécharger le mémoire
  • 2008, Ana-Maria Olteanu-Raimond :
    Appariement de données spatiales par prise en compte de connaissances imprécises
    Dirigée par Anne Ruas
    Co-encadrement : Sébastien Mustière

    - Télécharger le mémoire
  • 2008, Christelle Pierkot :
    Gestion de la Mise à Jour de Données Géographiques Répliquées
    Dirigée par Abdelkader Hameurlain et Anne Ruas
    Co-encadrement : Sébastien Mustière

    - Télécharger le mémoire
  • 2005, David Sheeren :
    Compréhension et interprétation des différences de représentation entre les données géographiques
    Dirigée par Jean-Daniel Zucker
    Co-encadrement : Sébastien Mustière

    - Télécharger le mémoire
  • 2005, Nils Gesbert :
    Formalisation des spécifications de bases de données géographiques en vue de leur intégration
    Dirigée par Thérèse Libourel
    Co-encadrement : Sébastien Mustière

    - Télécharger le mémoire
  • 2000, Thierry Badard :
    Propagation des mises à jour dans les bases de données géographiques multi-représentations par analyse des changements géographiques
    Dirigée par Jean-Paul Cheylan
    Co-encadrement : Sylvie Lamy

    - Télécharger le mémoire
  • 1999, Anne Ruas :
    Modèle de généralisation de données géographiques à base de contraintes et d'autonomie.
    Dirigée par Jacques Désarménien
    - Télécharger le mémoire
  • 1997, Thomas Devogele :
    Processus d'intégration et d'appariement des bases de données géographiques. Application à une base de données routière multi-échelles.
    Dirigée par Eric Simon
    Co-encadrement : Laurent Raynal

    - Télécharger le mémoire

Collaborations

  • Encadrement d'une thèse CIFRE réalisée à EADS/Toulouse (Christelle Pierkot) codirigée par le COGIT et l' IRIT
  • Participation au projet européen Walk On Web (IST-2-004688-STP)
--
-
Site internet de la recherche à l'IGN