Padrões

A web semântica, explicada

VersionDude
Padrões
6 min de leitura

A ideia de uma web de dados - onde o significado é legível pelas máquinas - e os padrões como RDF, OWL e os motores de raciocínio que a fazem funcionar.

A web semântica é uma extensão da web na qual à informação é atribuído um significado bem definido, de modo que as máquinas - e não apenas as pessoas - a possam tratar. Na web comum, uma página é texto formatado para os olhos humanos; o software pode apresentá-la mas não compreende verdadeiramente o que ela diz. A ambição da web semântica é tornar este significado explícito, transformando a web de uma coleção de documentos em algo mais próximo de uma base de dados mundial.

A visão orientadora é uma web de dados em vez de uma web de páginas. Em vez de o significado estar prisioneiro de uma prosa que só um humano pode interpretar, as relações entre as coisas - que um determinado autor escreveu um determinado livro, publicado num determinado ano - são enunciadas explicitamente numa forma que as máquinas podem ler e interrogar. Lá onde a web de documentos liga páginas a páginas, a web de dados liga factos a factos.

A pilha de padrões: RDF, OWL, SPARQL

Um padrão abstrato de nós e linhas ligados.

Esta visão assenta numa pilha de padrões desenvolvida em grande parte através do W3C, em que cada camada se apoia na de baixo. Na base, o RDF, o Resource Description Framework, exprime os factos sob a forma de simples triplos sujeito-predicado-objeto, tais como «este livro tem por autor esta pessoa». Estes triplos são deliberadamente atómicos, para que um conhecimento complexo possa ser montado a partir de muitas pequenas afirmações combináveis.

Porque cada facto é um triplo uniforme, os dados provenientes de fontes diferentes podem ser fundidos simplesmente combinando as suas afirmações num único grande grafo. Não é necessário reconciliar disposições de tabelas incompatíveis como se faria com as bases de dados tradicionais; os triplos de um conjunto de dados ficam naturalmente ao lado dos triplos de outro. Esta componibilidade é um elemento central da potência do modelo, e da razão por que se adequa a uma web descentralizada.

Por cima do RDF estão as ontologias, que dão aos triplos em bruto um vocabulário e uma estrutura partilhados. As ontologias escritas em OWL, o Web Ontology Language, descrevem as classes de coisas num domínio e as relações entre elas - definindo, por exemplo, o que significa ser um autor, ou que cada livro tem exatamente um título. Uma ontologia é essencialmente um esquema de significado acordado que permite a dados criados independentemente interoperar.

Para extrair a informação, o SPARQL serve de linguagem de interrogação para estes grafos. Tal como o SQL interroga linhas numa base de dados relacional, o SPARQL interroga padrões de triplos através de um grafo, permitindo-lhe colocar questões como «encontra todos os livros cujo autor nasceu numa dada cidade». Juntos, o RDF para os factos, o OWL para o vocabulário e o SPARQL para a interrogação formam a caixa de ferramentas prática da web semântica.

Raciocinadores que inferem novos factos

Os raciocinadores são os motores que transformam isto de um armazenamento estruturado em algo verdadeiramente inteligente. Um raciocinador toma uma ontologia OWL com um conjunto de factos e infere novos factos que decorrem logicamente do que é enunciado, em vez de devolver apenas o que foi explicitamente escrito. É o passo que permite ao sistema responder a questões que os dados em bruto nunca enunciaram diretamente.

O Pellet é um exemplo bem conhecido de um tal raciocinador. Dada uma ontologia OWL, pode verificar a coerência da ontologia - assinalando as contradições nas definições - e derivar factos deduzidos, como concluir que uma coisa deve pertencer a uma determinada classe em virtude das regras que satisfaz. O raciocinador efetua em suma um trabalho lógico por sua conta, fazendo emergir conclusões implícitas nos dados e nas suas regras.

Por que a grande visão estagnou

Vale a pena ser honesto sobre o facto de que a plena visão da web semântica não substituiu a web comum, e que a adoção dos padrões mais pesados foi desigual. Construir e manter ontologias ricas é exigente, e muitos projetos acharam o esforço difícil de justificar face a abordagens mais simples. A grande ideia de uma web inteiramente compreensível pelas máquinas permanece mais uma aspiração do que uma realidade quotidiana, e reconhecê-lo faz parte de uma compreensão correta do campo.

- VersionDude

A versão que teve sucesso em silêncio

Apesar disso, cruza-se com os descendentes da web semântica todos os dias. Os dados estruturados e o markup schema.org, que alimentam os resultados enriquecidos, os painéis de conhecimento e as pré-visualizações que vê nos motores de pesquisa, são uma fatia pragmática desta mesma ideia - tornar o significado de uma página legível pelas máquinas. A versão leve e incremental da visão teve sucesso em silêncio, precisamente lá onde a versão máxima falhou, e é a forma com que a maioria dos programadores irá trabalhar.

Projeto relacionado

Código JavaScript realçado a cores num ecrã escuro

guides