ÉDITORIAL

ÉDITORIAL

Fayçal Hamdi Fatiha SaÏs

CEDRIC, Cnam Paris

LRI, Université Paris-Sud






 


Page: 
7-10
|
DOI: 
https://doi.org/10.3166/ISI.21.5-6.7-10
Received: 
N/A
|
Accepted: 
N/A
|
Published: 
31 December 2016
| Citation
Abstract: 

Le web de données (LOD - Linked Open Data) est une initiative du W3C, quiconsiste en un ensemble de bonnes pratiques pour publier et lier des donnéesstructurées (sous le format RDF) dans le web. En utilisant des technologies du websémantique, des applications peuvent partager, extraire, interroger ou raisonner surles données publiées.

Le LOD a récemment pris une nouvelle dimension avec la publication degrandes quantités de données (le LOD est passé de 500 millions triplets RDF en2007 à 130 milliards triplets en 2016). Ces données sont encyclopédiques telles queDBpedia, Yago ou encore Google Knowledge Vault et concernent plusieursdomaines d’application comme les sciences du vivant, la culture et les statistiques.Toutefois, si ces données se retrouvent isolées leur utilité reste très limitée. En effet,un des points angulaires du web de données est le fait que les données soient liéesentre elles par des liens sémantiques tels que les liens d’identité (owl:sameAs) quiexpriment que deux ressources différentes réfèrent à la même entité (p. ex., mêmepersonne, même article, même gène). C’est notamment grâce à ces liens qu’il estpossible de développer des applications capables de combiner des donnéesprovenant de différentes sources et de naviguer à travers le web de données. Leprincipe est analogue à celui du web de documents qui tient toute sa puissance desliens hypertextes entre les documents.

Un des éléments essentiels du web de données est l’utilisation de différentsvocabulaires pour décrire les données publiées. Ces vocabulaires sont représentésdans des ontologies de façon structurée en associant une sémantique logique quipermet de raisonner automatiquement sur les données et les connaissances.L’utilisation des ontologies pour décrire les données engendre diversesproblématiques allant du choix et de la réutilisation de vocabulaires existants àl’alignement et l’interopérabilité des ontologies. Enfin, un des défis qui émergentaujourd’hui est celui de la capitalisation du contenu du web de données qui couvre,notamment, les problèmes d’extraction de connaissances à partir des donnéesincertaines et incomplètes, de raisonnement avec des incohérences, de fusion dedonnées et d’évaluation de la qualité des données et des connaissances dans le webde données.

Les recherches actuelles dans le cadre du web de données visent à concevoir desarchitectures et à définir des méthodes offrant, à des institutions et à des organismes,la possibilité de publier et de lier leurs données avec celles déjà publiées. Lestravaux de recherches dans ce domaine visent également à développer desapplications extrayant une forte valeur ajoutée des données liées.

Le but de ce numéro spécial est de réunir des travaux traitant des problématiquestelles que la publication des données sur le LOD, le liage de données et lacapitalisation des connaissances issues du LOD. Six articles ont été sélectionnéspour ce numéro. Le premier article offre un état de l’art sur le liage de données, ledeuxième et le troisième s’intéressent au problème de l’évaluation de la qualité desdonnées et des connaissances dans le LOD. Les deux suivants présentent desexemples d’applications sur les données du LOD : un wiki sémantique et un outil devisualisation d’ontologies. Le dernier article montre un exemple de plateformed’intégration de données du LOD appliquée à l’agronomie. Dans ce qui suit, nousfournissons un résumé de chacun des articles présentés dans ce numéro spécial de larevue ISI – Ingénierie des Systèmes d’Information.

Manel Achichi, Zohra Bellahsene et Konstantin Todorov présentent dans « ASurvey on Data Linking » un état de l’art des méthodes et outils traitant du problèmede liage de données. Le processus de liage est considéré dans cette étude comme unechaîne de traitement composée de trois phases : 1) pré-traitement, 2) appariementd’instances et 3) post-traitement. Une classification des approches et des outils dansune (pseudo-) taxonomie en fonction des trois grandes étapes du processus estproposée. Cette classification comprend plusieurs catégories ; en fonction des tâchesque chaque approche utilise et selon les techniques qui y sont appliquées. Unequatrième catégorie de méthodes appelée multi-étapes est considérée. Celle-cicomprend les méthodes agissant sur plus d’une étape du processus de liage. Lesauteurs proposent également une analyse comparative des différentes approches etoutils existants dans ce domaine.

Dans « Évaluation de la qualité des sources du web de données pour la résolutiond’entités nommées », Carmen Brando, Nathalie Abadie et Francesca Frontiniprésentent une étude empirique réalisée afin d’évaluer la qualité de jeux de donnéesdu web de données en tant que bases de connaissances potentielles pour uneapplication de résolution d’entités nommées dans le contexte des humanitésnumériques. Pour ce faire, les auteurs s’appuient sur des mesures d’évaluation de laqualité des sources de données du web de données de l’état de l’art mis en oeuvre dupoint de vue de l’adéquation des données à un besoin particulier. Ces mesures ontété testées sur des sources de données de deux types : une source de données du webde données généraliste et d’autres portant sur des domaines plus spécifiques.L’objectif visé était de déterminer s’il est possible d’évaluer a priori quelle source dedonnées serait la plus à même de produire de bons résultats de résolution d’entitésnommées dans le cas de textes littéraires en français.

L’article « Interopérabilité sémantique entre vocabulaires contrôlés : Évaluationde la qualité des alignements sur des données de standards du diagnostic in vitro »de Melissa Mary, Lina F. Soualmia et Xavier Gansel s’intéresse à l’intégration desconnaissances entre SOC (Systèmes d’organisation des connaissances) qui est uneproblématique largement étudiée dans des domaines plus ou moins spécialisés (labiologie, et la santé). Ils proposent une évaluation de l’alignement de concepts issusdu DIV (le diagnostic in vitro) présents dans les SOC de référence disponibles enligne. Les méthodes proposées reposent sur trois mesures de similarité syntaxiqueset un algorithme heuristique. Les résultats obtenus dans cette étude ont montré queles mesures de similarité syntaxiques ne se révèlent pas suffisamment probantespour se voir appliquées de manière systématique au domaine des tests de laboratoire.En revanche, la qualité des alignements obtenus via l’algorithme heuristique, filtré aposteriori en fonction d’une dimension sémantique, conforte les critères deperformance établis par les auteurs.

Yaya Traore, Cheikh Talibouya Diop, Fatou Kamara-Sangare, SadouanouanMalo, Moussa Lo et Stanislas Ouaro proposent dans « Motifs fréquents pouraméliorer la catégorisation dans un wiki sémantique » une approche qui permetd’extraire parmi les tags (les mots-clés) annotant les pages wikis, des motifsfréquents qui guident la découverte de nouvelles catégories et qui améliorent lacatégorisation du contenu du wiki. Les auteurs utilisent l’ontologie associée au wikipour bénéficier de plus d’informations structurées afin de guider l’expert dans lacréation de nouvelles catégories dans le wiki. Les expérimentations réalisées sur unwiki sémantique avec des pages annotées ont montré que la méthode permetd’améliorer la catégorisation du contenu du wiki et la recherche sémantique parcatégorie.

Dans « Un outil de visualisation d’ontologies pour le web des données, utilisablepar tous », Fatma Ghorbel, Elisabeth Métais, Nebrasse Ellouze et Faiez Gargouriprésentent un outil de visualisation d’ontologies nommé MEMO GRAPH quipermet la visualisation de données ouvertes et liées. Cet outil est conçu pour êtreutilisé par tous ; les experts du domaine et les utilisateurs non connaisseurs destechnologies du web sémantique. Il offre une interface qui illustre le concept du« Design For All » ou « design universel » et a été intégré dans la prothèse demémoire CAPTAIN MEMO afin de visualiser un jeu de données à petite échelle(PersonLink). MEMO GRAPH a, également, été utilisé en tant qu’applicationautonome, pour visualiser une partie d’un jeu de données ouvertes liées à largeéchelle (DBpedia). L’efficacité et l’accessibilité de MEMO GRAPH a été évaluéepar des experts du domaine et par des patients atteints de la maladie d’Alzheimer.Les premiers résultats ont montré qu’il est efficace et convivial.

Enfin, l’article « AgroLD API : Une architecture orientée services pourl’extraction de connaissances dans la base de données liées AgroLD » de GildasTagny Ngompe, Aravind Venkatesan, Nordine El Hassouni, Manuel Ruiz et PierreLarmande présente le projet Agronomic Linked Data (AgroLD) qui est une base deconnaissances du web sémantique conçue pour intégrer des données provenant dediverses sources de données centrées sur des plantes disponibles publiquement.L’objectif de AgroLD est de fournir un portail web pour les bioinformaticiens et lesexperts du domaine afin d’exploiter les données homogénéisées et permettre decombler les connaissances dans ce domaine.Nous remercions les auteurs pour leur contribution et les membres du comité delecture pour leur participation active dans la relecture des articles de ce numéro.