CLEMI-Créteil

Le web sémantique (doc Rouen)

04 / 04 / 2008 | Clemi Créteil
Web 3.0 : l’internet du futur ?

Frédéric Rabat Format imprimable

Le très éminent Tim Berners-Lee, inventeur du World Wide Web et dirigeant du W3C est à l’initiative d’un projet appelé « web sémantique ».

Web sémantique... ou Web de données

Dans un entretien qu’il a accordé à la revue La Recherche (novembre 2007) Tim Berners-Lee regrette l’usage de cette expression source d’ambiguïtés selon lui et lui aurait préféré celle de : « web de données ». En effet il s’agit moins de créer du sens autour des données que de relier ces données entre elles par le biais d’une description normalisée capable de les associer en une même recherche : « (...) créer un lien automatique pour relier les données qui sont stockées dans les différents fichiers et bases de données de nos ordinateurs. »

« Le terme sémantique prête un peu à confusion car la sémantique s’intéresse au sens du langage pour en déduire des constructions logiques. Du coup, certains ont pensé qu’il s’agissait d’un Web qui permettrait par exemple d’effectuer des recherches sur Internet en posant des questions sous forme de phrases, en langage naturel. Or ce n’est pas son but. En fait, nous aurions dû l’appeler dès le départ « Web de données ». »

L’axe de travail est donc moins linguistique que l’expression « web sémantique » le laisse penser mais certainement plus orienté vers la conception d’un système favorisant « l’intéropérabilité » des données. Actuellement une recherche complète doit associer plusieurs outils spécialisés dans un domaine. Berners-Lee travaille à une recherche synthétique (pour ne pas dire syncrétique) qui associerait tous ces domaines en une seule collecte.

Le principe

« [...] le lien entre les données est caractérisé afin de retrouver les données portant sur le mêmes objet, quels que soient l’ordinateur et le fichier où elles sont stockées. Pour caractériser ce lien, on utilise le système d’adressage du Web avec ses identifiants, les URI (uniform resource identifier) auxquels on associe une description relative à la donnée. Cette description caractérise la donnée en la reliant à une catégorie[...] »

Un type de donnée est donc mis en relation avec une catégorie d’ordre générique susceptible de préciser la nature de la donnée. Une date de naissance rentrera dans la catégorie « Date », Exalead dans la catégorie « moteur de recherche » et « indexation automatique », etc. Les logiciels clients de nos ordinateurs personnels pourront explorer ces champs lexicaux destinés à éviter l’effet « chaîne de caractère » (aucune prise en compte de la dimension sémantique de la recherche).

Les langages

RDF (Resource Data framework)

Pour formaliser la description des données à relier, le W3C a inventé un outil : le RDF (Resource Data framework). Le langage décrit les principes qui permettent de relier une donnée à une catégorie.

Sans rentrer dans les détails on peut présenter le RDF de la manière suivante : « RDF définit une ressource (URI) sous la forme d’un triplet : ressource, propriété, valeur. [...] on peut dire qu’une chose est décrite sous la forme d’une phrase : sujet, verbe, complément. Ce modèle conceptuel permet de représenter un nombre considérable de choses. » source : websemantique.org

Exemple : « (Une personne dit :) « il pleut » ; cette personne sous-entend naturellement qu’il pleut des gouttes d’eau à l’endroit où elle se situe. En RDF on exprimera alors explicitement toutes les composantes de la proposition : "Des gouttes d’eau [sujet] pleuvent [verbe] en ce lieu [complément]". » source : websemantique.org

Dans cet exemple sujet, verbe, complément sont une autre manière de dire : ressource, propriété, valeur.

Les ontologies

La catégorisation des données peut d’ores et déjà s’appuyer sur des grands ensembles de termes structurés appliqués à des domaines circonscrits : les ontologies. Selon Gruber une ontologie est « une spécification explicite d’une conceptualisation ». Thomas R. Gruber. Formal ontology in conceptual analysis and knowledge representation. Chapter : Towards principles for the design of ontologies used for knowledge sharing. Kluwer Academic Publishers. 1993.

Si l’on souhaite un modèle visuel pour concevoir une ontologie il faudrait envisager une carte conceptuelle plutôt qu’un thésaurus par exemple (le thésaurus est structuré de manière hiérarchique, l’ontologie de manière extensive). Motbis n’est donc pas une ontologie au contraire du Dublin Core (standard pour les métadonnées).

Il existe déjà un langage de référence pour composer une ontologie : le langage OWL (Web ontology language). « OWL est un langage beaucoup plus riche (que le RDF) qui, aux notions définies par RDF Schema, ajoute les propriétés de classe équivalente, de propriété équivalente, d’identité de deux ressources, de différences de deux ressources, de contraire, de symétrie, de transitivité, de cardinalité, etc., permettant de définir des rapports complexes entre des ressources. » source : websemantique.org

Vous pouvez lire une synthèse très complète concernant les ontologies sur l’excellent site : )i( interstices

Pour continuer la réflexion dans le domaine des sciences de l’information je vous conseille la lecture d’un article en dépôt sur Archivsic.

Résumé : « Cet article compare différents systèmes d’organisation des connaissances (classifications, thésaurus, ontologies formelles, ontologies sémiotiques, folksonomies) selon différents critères pour évaluer leur pertinence en regard de la Recherche Ouverte d’Information. »

Classification, thésaurus, ontologies, folksonomies : comparaisons du point de vue de la recherche ouverte d’information (ROI). Disponible à l’adresse : http://archivesic.ccsd.cnrs.fr/docs/00/20/24/40/PDF/cais-acsi_zacklad_-_avec_ref.pdf

Les moteurs spécialisés « web de données »

Même si tout ce qui est décrit ci-dessus est encore en évolution, il est déjà possible de mener des recherches dans le web sémantique à l’aide d’outils exploitant les vertus du RDF. Le blog « Les petites cases.net » propose un billet consacré à ses outils sous le titre : Naviguer et rechercher dans le Web of data

 

Fil twitter de @clemicreteil

0 | 5 | 10 | 15

Sites Favoris

Decryptimages

Un site participatif dédié à l’éducation à l’image proposé par la Ligue de l’Enseignement et l’Institut des Images.

Edubases sélection Médias

Voici les dernières fiches d’EDU’bases Documentation proposant des scénarios pédagogiques consacrés à l’éducation aux médias

Sites Favoris

Decryptimages

Un site participatif dédié à l’éducation à l’image proposé par la Ligue de l’Enseignement et l’Institut des Images.

Edubases sélection Médias

Voici les dernières fiches d’EDU’bases Documentation proposant des scénarios pédagogiques consacrés à l’éducation aux médias