Estándares

La web semántica, explicada

VersionDude
Estándares
6 min de lectura

La idea de una web de datos - donde el significado es legible por máquinas - y los estándares como RDF, OWL y los razonadores que la hacen funcionar.

La web semántica es una extensión de la web en la que a la información se le da un significado bien definido, de modo que las máquinas -no solo las personas- puedan procesarla. En la web ordinaria, una página es texto dispuesto para los ojos humanos; el software puede mostrarlo pero no entiende realmente lo que dice. La ambición de la web semántica es hacer explícito ese significado, convirtiendo la web de una colección de documentos en algo más cercano a una base de datos global.

La visión orientadora es una web de datos en lugar de una web de páginas. En vez de que el significado quede atrapado dentro de una prosa que solo un humano puede interpretar, las relaciones entre las cosas -que un autor concreto escribió un libro concreto, publicado en un año concreto- se enuncian explícitamente en una forma que las máquinas pueden leer y consultar. Donde la web de documentos enlaza páginas con páginas, la web de datos enlaza hechos con hechos.

La pila de estándares: RDF, OWL, SPARQL

Un patrón abstracto de nodos y líneas conectados.

Esta visión se apoya en una pila de estándares desarrollados en gran medida a través del W3C, cada capa construida sobre la inferior. En la base, RDF, el Marco de Descripción de Recursos, expresa los hechos como simples tripletas de sujeto-predicado-objeto, como 'este libro tiene autor esa persona'. Estas tripletas son deliberadamente atómicas, de modo que el conocimiento complejo puede ensamblarse a partir de muchas afirmaciones pequeñas y combinables.

Como cada hecho es una tripleta uniforme, los datos de distintas fuentes pueden fusionarse simplemente combinando sus afirmaciones en un único grafo grande. No hay necesidad de reconciliar diseños de tablas incompatibles como ocurriría con las bases de datos tradicionales; las tripletas de un conjunto de datos se sitúan de forma natural junto a las tripletas de otro. Esta capacidad de composición es una parte central de por qué el modelo es potente, y de por qué se adecúa a una web descentralizada.

Sobre RDF se asientan las ontologías, que dan a las tripletas en bruto un vocabulario y una estructura compartidos. Las ontologías escritas en OWL, el Lenguaje de Ontologías Web, describen las clases de cosas de un dominio y las relaciones entre ellas, definiendo, por ejemplo, qué significa ser un autor, o que cada libro tiene exactamente un título. Una ontología es esencialmente un esquema de significado acordado que permite la interoperabilidad de datos creados de forma independiente.

Para recuperar la información, SPARQL sirve como lenguaje de consulta para estos grafos. Igual que SQL consulta filas en una base de datos relacional, SPARQL consulta patrones de tripletas a través de un grafo, permitiéndote hacer preguntas como 'encuentra todos los libros cuyo autor nació en una ciudad dada'. Juntos, RDF para los hechos, OWL para el vocabulario y SPARQL para las consultas forman el conjunto de herramientas práctico de la web semántica.

Razonadores que infieren nuevos hechos

Los razonadores son los motores que convierten esto de almacenamiento estructurado en algo genuinamente inteligente. Un razonador toma una ontología OWL junto con un conjunto de hechos e infiere nuevos hechos que se siguen lógicamente de lo enunciado, en lugar de devolver solo lo que se escribió explícitamente. Este es el paso que permite al sistema responder preguntas que los datos en bruto nunca explicitaron directamente.

Pellet es un ejemplo bien conocido de tal razonador. Dada una ontología OWL, puede comprobar la consistencia de la ontología -señalando contradicciones en las definiciones- y derivar hechos implicados, como concluir que algo debe pertenecer a una clase concreta por las reglas que satisface. El razonador efectivamente hace el trabajo lógico en tu nombre, haciendo aflorar conclusiones implícitas en los datos y sus reglas.

Por qué la gran visión se estancó

Vale la pena ser honesto en que la visión completa de la web semántica no ha reemplazado a la web ordinaria, y la adopción de los estándares más pesados ha sido desigual. Construir y mantener ontologías ricas es exigente, y muchos proyectos encontraron el esfuerzo difícil de justificar frente a enfoques más simples. La gran idea de una web plenamente comprensible por las máquinas sigue siendo más aspiración que realidad cotidiana, y reconocerlo es parte de entender el campo con precisión.

- VersionDude

La versión que triunfó en silencio

Aun así, te encuentras con los descendientes de la web semántica cada día. Los datos estructurados y el marcado de schema.org, que impulsan los resultados enriquecidos, los paneles de conocimiento y las vistas previas que ves en los motores de búsqueda, son una porción pragmática de esa misma idea: hacer legible para las máquinas el significado de una página. La versión ligera e incremental de la visión triunfó en silencio, incluso allí donde la versión maximalista no lo hizo, y esa es la forma con la que trabajará la mayoría de los desarrolladores.

Proyecto relacionado

Código JavaScript resaltado con colores en una pantalla oscura

guides