
Le web sémantique, expliqué
- VersionDude
- Standards
- 6 min de lecture
L'idée d'un web de données — où le sens est lisible par les machines — et les standards comme RDF, OWL et les moteurs de raisonnement qui le font fonctionner.
Le web sémantique est une extension du web dans laquelle l'information se voit attribuer une signification bien définie, de sorte que les machines — et pas seulement les personnes — puissent la traiter. Sur le web ordinaire, une page est du texte mis en forme pour les yeux humains ; le logiciel peut l'afficher mais ne comprend pas véritablement ce qu'elle dit. L'ambition du web sémantique est de rendre cette signification explicite, transformant le web d'une collection de documents en quelque chose de plus proche d'une base de données mondiale.
Cette vision repose sur une pile de standards développée en grande partie via le W3C, chaque couche s'appuyant sur celle d'en dessous. À la base, RDF, le Resource Description Framework, exprime les faits sous forme de simples triplets sujet-prédicat-objet, tels que « ce livre a pour auteur cette personne ». Ces triplets sont délibérément atomiques, afin qu'une connaissance complexe puisse être assemblée à partir de nombreuses petites affirmations combinables.
Parce que chaque fait est un triplet uniforme, les données provenant de différentes sources peuvent être fusionnées simplement en combinant leurs affirmations en un seul grand graphe. Il n'est pas nécessaire de réconcilier des dispositions de tableaux incompatibles comme on le ferait avec les bases de données traditionnelles ; les triplets d'un jeu de données voisinent naturellement avec les triplets d'un autre. Cette composabilité est un élément central de la puissance du modèle, et de la raison pour laquelle il convient à un web décentralisé.
Par-dessus RDF se trouvent les ontologies, qui donnent aux triplets bruts un vocabulaire et une structure partagés. Les ontologies écrites en OWL, le Web Ontology Language, décrivent les classes de choses dans un domaine et les relations entre elles — définissant, par exemple, ce que signifie être un auteur, ou que chaque livre a exactement un titre. Une ontologie est essentiellement un schéma de signification convenu qui permet à des données créées indépendamment d'interopérer.

Pour ressortir l'information, SPARQL sert de langage de requête pour ces graphes. Tout comme SQL interroge des lignes dans une base de données relationnelle, SPARQL interroge des motifs de triplets à travers un graphe, vous permettant de poser des questions comme « trouve tous les livres dont l'auteur est né dans une ville donnée ». Ensemble, RDF pour les faits, OWL pour le vocabulaire et SPARQL pour l'interrogation forment la boîte à outils pratique du web sémantique.
Les raisonneurs sont les moteurs qui transforment cela d'un stockage structuré en quelque chose de véritablement intelligent. Un raisonneur prend une ontologie OWL avec un ensemble de faits et infère de nouveaux faits qui découlent logiquement de ce qui est énoncé, plutôt que de ne retourner que ce qui a été explicitement écrit. C'est l'étape qui permet au système de répondre à des questions que les données brutes n'ont jamais énoncées directement.
Pellet est un exemple bien connu d'un tel raisonneur. Étant donné une ontologie OWL, il peut vérifier la cohérence de l'ontologie — signalant les contradictions dans les définitions — et dériver des faits déduits, comme conclure qu'une chose doit appartenir à une classe particulière en raison des règles qu'elle satisfait. Le raisonneur effectue en somme un travail logique en votre nom, faisant émerger des conclusions implicites dans les données et leurs règles.
Il vaut la peine d'être honnête sur le fait que la pleine vision du web sémantique n'a pas remplacé le web ordinaire, et que l'adoption des standards les plus lourds a été inégale. Construire et maintenir des ontologies riches est exigeant, et de nombreux projets ont trouvé l'effort difficile à justifier face à des approches plus simples. La grande idée d'un web entièrement compréhensible par les machines reste davantage une aspiration qu'une réalité quotidienne, et le reconnaître fait partie d'une compréhension juste du domaine.
Malgré cela, vous croisez les descendants du web sémantique chaque jour. Les données structurées et le balisage schema.org, qui alimentent les résultats enrichis, les panneaux de connaissances et les aperçus que vous voyez dans les moteurs de recherche, sont une tranche pragmatique de cette même idée — rendre la signification d'une page lisible par les machines. La version légère et incrémentale de la vision a discrètement réussi, là même où la version maximale a échoué, et c'est la forme avec laquelle la plupart des développeurs travailleront.



La vision directrice est un web de données plutôt qu'un web de pages. Au lieu que la signification soit prisonnière d'une prose que seul un humain peut interpréter, les relations entre les choses — qu'un auteur particulier a écrit un livre particulier, publié une année particulière — sont énoncées explicitement sous une forme que les machines peuvent lire et interroger. Là où le web de documents relie des pages à des pages, le web de données relie des faits à des faits.