Volver al índice

Guía Breve de Linked Data

¿Qué es Linked Data?

Los Datos Enlazados es la forma que tiene la Web Semántica de vincular los distintos datos que están distribuidos en la Web, de forma que se referencian de la misma forma que lo hacen los enlaces de las páginas web.

La Web Semántica no se trata únicamente de la publicación de datos en la Web, sino que éstos se pueden vincular a otros, de forma que las personas y las máquinas puedan explorar la web de los datos, pudiendo llegar a información relacionada que se hace referencia desde otros datos iniciales.

De la misma forma que la web de la web del hipertexto, la web de los datos se construye mediante documentos en la web. Sin embargo, y a diferencia de la web del hipertexto, donde los enlaces son relaciones entre puntos de los documentos escritos en HTML, los datos enlazan cosas arbitrarias que se describen en RDF.

Por ejemplo, suponiendo que un directorio de empresas publica información especializada relativa a las organizaciones, como su tamaño o área profesional, es posible que desee indicar también información sobre la localización. Ya que en la web existen sitios con grandes bases de datos geográficas, con información pormenorizada sobre las localizaciones, el directorio de empresas puede hacer referencia a los datos geográficos que están dispuestos por esa fuente externa. De esta forma, los datos iniciales de la organización se enriquecen con información que ofrecen los expertos en el ámbito geográfico.

Empresa1 tiene asociada información de Madrid, que está en otro sitio web especializado en geografía

¿Para qué sirve?

Linked Data permite construir la Web de los datos, una gran base de datos interconectados y distribuidos en la Web. Los datos se vinculan y se exploran de una forma similar a la utilizada para vincular los documentos HTML.

Grafo que representa los conjuntos de datos interconectados por dominios (http://www4.wiwiss.fu-berlin.de/bizer/pub/lod-datasets_2009-07-14_colored.png)

Este grafo representa a distintos conjuntos de datos de diversos tipos, organizados mediante colores por dominios. Estos conjuntos de datos están conectados entre sí de forma que componen la “Nube de Linked Data” o “Nube de Datos Enlazados”.

¿Cómo funciona?

Los Datos Enlazados, como parte de la Web Semántica, se basa en la aplicación de ciertos principios básicos y necesarios, que fomentarán el crecimiento de la Web, tanto a nivel de los documentos HTML (vista clásica de la Web), como a nivel de los datos expresados en RDF (vista de la Web Semántica).

  1. Usar URIs para identificar las cosas
  2. Usar URIs HTTP
  3. Ofrecer información sobre los recursos usando RDF
  4. Incluir enlaces a otros URIs

Para conseguir tener los datos interconectados, como si la Web fuese una gran base de datos, se deben respetar los cuatro pasos anteriores para conseguir tener los datos interconectados. Gracias a esta interconexión, se permite reutilizar la información de cualquier manera esperada o inesperada, lo que ofrece un valor añadido a la Web.

Usar URIs para identificar las cosas

Al nombrar los conceptos o cosas mediante URIs, se ofrece una abstracción del lenguaje natural y así se consigue evitar ambigüedades y así ofrecer una forma estandar y unívoca para refererirnos a cualquier recurso.

Un ejemplo de esto puede observarse en la información geográfica. Las posición de los lugares puede representarse mediante coordenadas, información que puede ser fácilmente interpretable por las personas o de forma automática. El problema surge cuando debemos referirnos a un lugar por su topónimo, ya que éste puede variar en función del idioma (Croacia, Croatia, Hrvatska, क्रोशिया, etc), de su representación (Republika Hrvatska, Rep. de Croacia, etc.), u otros factores (Croacia, antigua República Yugoslava). Si usásemos el nombre para referirnos a los lugares, las múltiples acepciones que podría adoptar, dificultaría el tratamiento automatizado de la información.

http://dbpedia.org/resource/Croatia representa a Croacia, y ese recurso tiene información sobre sus nombres, coordenadas, etc.

De esta forma, si utilizamos un identificador único como http://dbpedia.org/resource/Croatia, cualquier aplicación se podría referir al mismo lugar, independientemente de la ambigüedad del lenguaje natural.

Usar URIs HTTP

Ya que existen muchos esquemas de URIs, se pretende el uso de URIs sobre HTTP (p.e., http://dbpedia.org/resource/Croatia) para asegurar que cualquier recurso pueda ser buscado y accedido en la Web. Debe tenerse en cuenta que los URIs no son sólo direcciones, son identificadores de los recursos.

Ofrecer información sobre los recursos usando RDF

Una vez que se busca y se accede a un recurso identificado mediante una URI HTTP, se debe obtener informarción útil sobre dicho recurso, representada mediante descripciones estándares en RDF. Se pretende que para cualquier conjunto de datos o vocabulario, se ofrezca información relativa a la información que representa.

De esta forma, si una aplicación desea obtener información sobre un concepto identificado mediante una URI, cuando hace una llamada HTTP para obtener el recurso, debería obtener información fácilmente procesable en formato RDF. De la misma forma, si se proveen puntos de consulta avanzada, como SPARQL, el resultado ante una consulta podrá ser interpretado de forma automática.

Cuando un cliente, hace una petición HTTP para obtener el recurso http://dbpedia.org/resource/Croatia, recibe información en RDF acerca del recurso

El recurso que identifica a “Croacia” incluye información sobre esta nación. Si cualquier aplicación quisiera hacer uso de la información que provee la DBpedia sobre este recurso, simplemente debería obtener el recurso identificado como “http://dbpedia.org/resource/Croatia” y obtendría todos los datos relativos a Croacia (población, extensión del país, topónimos en distintos idiomas, etc.).

Incluir enlaces a otros URIs

La cuarta regla, enlazar datos en cualquier lugar, es necesaria para conectar los datos que tenemos en sitios web de forma que no se queden aislados y así se pueda compartir información con otras fuentes externas y que otros sitios puedan enlazar los datos propios de la misma forma que se hace con los enlaces en HTML.

A través de la utilización de enlaces a recursos provenientes de sitios más especializados en determinados dominios, se ofrece un valor añadido a la información que se provee.

Algo a tener en cuenta es que los enlaces de los recursos mediante URIs, pueden hacerse localmente y a través de toda la red. Por ejemplo, el recurso de la DBpedia que representa a Croacia, puede tener una propiedad que representa la capital del país, Zagreb, que también está representada mediante RDF e identificada por un URI unívoco similar al de Croacia. En este caso, Zagreb se representa como http://dbpedia.org/resource/Zagreb. De esta forma, ya aparecen dos recursos enlazados, aunque se encuentran en el mismo servidor.

Croacia (representada como recurso) tiene una capital que es Zagreb (representada como recurso) y Zagreb tiene asociado un recurso externo que es las Fotografías de Flickr de Zagreb

Algunos de los recursos relacionados con los lugares son las fotografías, por lo que el recurso “Croacia” y “Zagreb” incluyen una propiedad que enlaza el lugar con las fotografías relacionadas, que se encuentran almacenadas en un almacén como Flickr, que a su vez ofrece su información en RDF. De esta forma, se enlazan los datos de lugares con las fotografías.

Gracias a estos mecanismos, cualquier recurso es susceptible de ser enriquecido con cualquier tipo de información especializada, incluso la que no se espera que sea combinable. De la forma inversa, al publicar información en RDF y utilizando URIs, cualquiera podría hacer referencia a esos datos.

Ejemplos

El grupo de comunicación BBC utiliza tecnologías semánticas basadas en los principios de Linked Data para sitios como BBC Music (música), BBC Programmes (programas), o BBC Wildlife Finder (fauna salvaje) confían en conjuntos de datos externos, que están publicados en la web. Estos conjuntos de datos proceden de sitios como Musicbrainz (base de datos sobre música) o la Wikipedia (o su abstracción semántica, DBpedia).

Los sitios de la BBC muestran una vista agregada de esta información obtenida de varias fuentes y puesta en el contexto de la BBC. Además, la BBC también crea contenido semántico, identificado mediante URIs, de cualquier elemento que se considera interesante. Además, al crear representaciones en RDF de estos identificadores, se permite a cualquier desarrollador que aproveche estos datos de la BBC para construir sus propias aplicaciones.

BBC Music ofrece un identificador para cualquier artista que pueda aparecer en los programas de la BBC, eventos de la BBC, etc. y así ser reutilizada su información. BBC Music se sustenta gracias a la base de datos de música Musicbrainz y la Wikipedia, aprovechando la información existente en estas fuentes de datos, mejorándola y enriqueciéndola con enlaces dentro del sitio de la BBC. BBC Music considera a la Web como un sistema gestor de contenidos con la información distribuida.

Pantallazo de BBC Music

BBC Music combina sus propios datos con los obtenidos desde Musicbrainz y la Wikipedia

Más información sobre Linked Data

Guía Breve de Web Semántica
Guía básica en castellano sobre Web Semántica en general.
Linked Data - Design Issues
Aspectos básicos de diseño que definen Linked Data y la forma de aplicar estos principios (en inglés).
Proyecto LinkingOpenData
Proyecto, dentro de la Comunidad de Educación y Difusión de la Web Semántica del W3C (en inglés).
Tutorial Linked Data
Presentación de un tutorial del W3C sobre Linked Data (en inglés).
Actividad de Web Semántica del W3C
Toda la información sobre Web Semántica en el W3C (en inglés).
Wiki con recursos sobre la Web Semántica del W3C
Wiki con herramientas, ayuda, tutoriales, etc. acerca de la Web Semántica (en inglés).