cargando menú...

inicio

temario

calendario

tutoría

notas

cambios

comunica

servicios

buscar

salir
Situación en la jerarquía: Fundamentos -> Primera parte -> Unidad F094 -> Artículo
Master en Buscadores
Artículo F094. Web semántica y servicios de búsqueda
Autor: Lluís Codina

Usuario: . Tipo de página: Contenido. Fichero: pag127.htm
[imprimir] · [exportar a Openoffice]

Citación recomendada: Lluís Codina. Artículo F094. Web semántica y servicios de búsqueda [en línea]. En Cristòfol Rovira; Lluís Codina (dir.). Máster en Buscadores. Barcelona: Área de Ciencias de la Documentación. Departamento de Periodismo y de Comunicación Audiovisual. Universidad Pompeu Fabra, 2007. http://www.masterenbuscadores.com [Consulta: 14 febrero 2008]

Sumario
1. Introducción
2. Componentes
3. Conclusiones
4. Bibliografía

Nota sobre la evaluación: de forma intercalada en el texto de este artículo encontrará el enunciado de diversas actividades. Para superar esta unidad didáctica deberá realizar estas actividades redactando un informe en el que se incluyan comentarios y, en caso que sea pertinente, una captura de pantalla de cada actividad para ilustrar su realización. Para entregar este informe deberá crear un solo documento para todos las actividades de esta unidad didáctica en formato OpenOffice o Word y de un máximo de 500 Kb. A continuación podrá usar el espacio de entrega y notificación perteneciente a este grupo de unidades didácticas. La realización de forma satisfactoria de este ejercicio implicará la obtención de 0,75 créditos.

1. Introducción

La Web semántica es un ambicioso proyecto del World Wide Web Consortium (W3C) que, de tener éxito, estaría destinado a transformar de modo decisivo la actual Web. El objetivo consiste en conseguir una Web cuyos contenidos sean mejor interpretados por los ordenadores y, entre otras cosas, los buscadores funcionen de forma “inteligente”.

Primera aproximación

El W3C www.w3.org es el organismo que regula aspectos esenciales de la Web tales como los lenguajes de marcado y de presentación(HTML, XML, CSS, etc.) con los que se crean las páginas y los sitios web. Puede decirse que es, con mucha diferencia, el organismo de normalización más importante de Internet, siendo su director el propio fundador de la Web, Tim Berners-Lee, por lo que sus recomendaciones, aunqueno siempre adoptan forma de normas oficiales,poseen un gran prestigio y una enorme influencia.

En este contexto, la definición oficial del proyecto de la Web semántica es el siguiente:

“La Web semántica proporciona un marco común que permite que los datos sean compartidos y reutilizados a través de aplicaciones, empresas y fronteras comunitarias. Es un esfuerzo colaborativo liderado por el W3C con la participación de un gran número de investigadores y socios industriales. Está basado en Resource Description Framework (RDF) e integra una variedad de aplicaciones utilizando XML para la sintaxis y URI para las denominaciones” www.w3.org/2001/sw/

Lo primer que corresponde señalar es que, de acuerdo con las estimaciones, el despliegue total de la Web semántica se prolongará más allá del año 2010. Es decir, no estamos hablando de una realidad todavía.

Sin embargo, la Web semántica ya está entre nosotros de diversas formas. En primer lugar, bajo la forma de una auténtica idea-fuerza, en el sentido de que es una idea que ya ha sido capaz de movilizar energías (e ilusiones) y que, sin duda no dejará de arrojar resultados positivos durante los próximos años. En segundo lugar, aportando nuevos estándares que ya son de uso habitual (como el lenguaje XML) e influenciando en el desarrollo de la nueva generación de navegadores y editores de páginas web.

En todo caso, v olviendo a su definición, en el proyecto de la Web semántica conviven dos grandes visiones o dos grandes ideas-fuerza cuya confluencia a veces dificulta su interpretación. Por este motivo,nosotros proponemos dos definiciones separadas (que se pueden complementar) de la Web semántica:

Definición 1. La visión de la Inteligencia Artificial: La Web semántica es un conjunto de iniciativas destinadas a promover una futura Web cuyas páginas estén organizadas, estructuradas y codificadas de tal manera que los ordenadores sean capaces de efectuar inferencias y razonar a partir de sus contenidos.

Definición 2. La visión del procesamiento robusto: La Web semántica es un conjunto de iniciativas destinadas a convertir la World Wide Web en una gran base de datos capaz de soportar un procesamiento sistemático y consistente de la información.

En relación a la Definición 1, es evidente que los ordenadores actuales no son capaces de razonar ni de realizarinferencias en un modo similar al de los seres humanos, y ni tan solo hay atisbos de que puedan hacerlo en elfuturo.Por tanto, debemos dejar claro que el “razonamiento” que puede esperarse que sean capaces de realizar los ordenadores consistirá en una simulación (de razonamiento).

Veamos ahora la D efinición 2 vinculada a la visión del procesamiento robusto. Lo que separa a un conjunto de documentos con información no estructurada, y por tanto difícil de procesar y de explotar su contenido respecto de un conjunto de registros de una base de datos es la suma de tratamiento sistemático+metadatos propia de estos últimos (y ausente en los primeros).

Recordemos que la creación de una típica base de datos documental consiste en definir un grupo de campos, lo que equivaldría en nuestro caso a definir un conjunto de etiquetas como <autor>, <título>, etc., para marcar sistemáticamente en cada documento de la base de datos la información que en el documento original aparece sin ninguna identificación explícita. El segundo paso consistirá en vincular cada documento con metadatos mediante etiquetas del estilo <clasificación>, <tipo de documento>, <descriptores>, <fecha de creación>, etc.

Una vez tenemos lo anterior, hemos pasado de información desestructurada a información sistematizada en la que cada línea de texto, cada párrafo o cada grupo de párrafos forma parte deun campo y está vinculado a un conjunto de metadatos. A partir de aquí será sencillo conseguir que la base de datos simule una cierta inteligencia de la que carecen en estos momentos los motores de búsqueda, ya que será capaz de responder a preguntas que actualmente no puede responder un motor de búsqueda. Por ejemplo, en la actualidad no existe forma de pedir a un motor de búsqueda que busque documentos donde la palabra Eco se refiera al nombre de un autor y no a un fenómeno acústico. En cambio, en una base de datos documental es una operación tan trivial que nos pasa absolutamente desapercibida. Es a esta clase de procesamiento sistemático (predecible) y consistentea la que nos queremos referir con la expresión de procesamiento robusto.

Ahora bien, dada esta dicotomía, ¿h ay algún elemento común, alguna cosa que nos permita unificar o al menos articular las dos visiones? La respuesta, al menos en nuestra opinión es que sí. Si observamos los elementos de infraestructura en los que confía la visión de la IA, vemos que son en parte los mismos que se requieren para crear una base de datos, es decir los mismos de la visión del procesamiento robusto.

La segunda visión, la del procesamiento robusto, está mucho más pegada al terreno. Es solvente, porque se basa en elementos bien probados en el procesamiento de la información, y esa es su gran virtud. Su problema es que carece de la capacidad de fascinación de la primera. Es posible que, si el proyecto de la Web semántica se hubiera limitado a esta segunda visión (con una denominación más técnica, etc.), nunca hubiera trascendido de las páginas de las revistas especializadas.

Actividad 1: Una comprobación de la presencia de la Web semántica en los medios. Entre en Google Noticias ( http://news.google.es/ ) y haga una búsqueda por el término “web semántica”. Compruebe si los medios se ocupan de este tema (o al menos lo mencionan en algunas de sus noticias sobre la Web). Revise las noticias libremente (haga clic al menos en las dos o tres primeras). La captura siguiente muestra las noticias (un total de 18) que se obtuvieronen Google Noticias un día del mes de octubre del 2007 (solamente a efectos de ilustración).

2. Componentes

Los medios con los cuales se persiguen los objetivos dela Web semántica son los siguientes: en primer lugar, utilizando una codificación de documentos en la cual las etiquetas tengan, precisamente, carga semántica. Este apartado corresponde al estándar denominado XML ( eXtensible Markup Language ). La versión de XML específicamente dedicada a páginas web es XHMTL, mientras quepara documentos ofimáticos se ha desarrollado OpenDocument (norma ISO sobre codificación de documentos ofimáticos que utilizan aplicaciones tan implantadas actualmente como OpenOffice).

En segundo lugar, aportando descripciones (metadatos) de las páginas y sitios web con un formato que sea compatible con la estructura general de la Web y con diversas categorías de páginas e interoperable entre distintos sistemas informáticos. De este se ocupa la norma RDF ( Resource Description Language ).

En tercer lugar, mediante un sistema de ontologías que permitan especificar conceptosde los diversos dominios del conocimiento mediante el uso de un lenguaje fuertemente basado en lógica simbólica y susceptible, por tanto, de ser eventualmente interpretado por un ordenador. De este aspecto se ocupa el denominado OWL Web Ontology Language (OWL), un sistema estándar propuesto por el W3C para representar y codificar ontologías. Existen además otros componentes de carácter más técnico que, si cumplen bien su misión, están destinados a pasar desapercibidos. En total, suelen considerarse siete componentes distintos.

Actividad 2: La oficina española del W3 Consortium ha publicado una guía muy breve sobre la web semántica ( http://www.w3c.es/Divulgacion/Guiasbreves/WebSemantica ) con algunos ejemplos concretos de posibles funcionalidades de la misma en el contexto de las búsquedas en el futuro.

E n la tabla siguiente presentamos comentamos estos componentes. La tabla debe interpretarse así: cada fila es como una capa o como las plantas de un edificio; las capas inferiores constituyen la infraestructura básica que soporta las prestaciones que proporcionarán las superiores una vez se haya completado el proyecto. En la primera columna mantenemos la terminología original del proyecto de acuerdo con el W3C.

Tabla 1: Las “capas” o niveles de la Web Semántica

7 Trust (+ Digital Signature)

La superior capa, Trust (confianza) debe servir para otorgar seguridad a las transacciones en la Web que se llevarán a cabo no solamente entre usuarios y sitios web sino también entre programas de software;y todo ello tanto en el plano C2B ( consumer to business ) como en el B2B ( business to business ). La llamada Digital Signature (firma digital) proporcionará soporte específico a esta capa.

6 Proof

En este contexto, Proof (prueba) significa demostración lógica o matemática. Se considera que un ordenador alcanza la máxima fiabilidad en sus razonamientos cuando es capaz de realizar demostraciones o, lo que es lo mismo a efectos prácticos, cuando es capaz de justificar el motivo por el cual tomó (o aconsejó tomar) una decisión. Como la Web semántica está relacionada con ideas de Inteligencia Artificial esta capa será necesaria para que los usuarios (humanos) confien en las decisiones de los agentes de software.

5 Logic

En este contexto, logic se refiere a la ciencia que estudia las reglas formales que permiten determinar si un razonamiento se sigue necesariamente de sus premisas. La lógica estudia, por tanto, la estructura de los razonamientos válidos. Se espera que los ordenadores del futuro puedan efectuar razonamientos sobre los recursos y servicios de la Web combinando los conocimientos expresados en las ontologías, los hechos declarados en los metadatos y la aplicación de reglas lógicas.

4 Ontology vocabulary

Una ontología es una especificación formal de un dominio del conocimiento que, en su expresión más simple, se identifica con una taxonomía. Una taxonomía consiste en una jerarquía de conceptos y sus relaciones del tipo clase-subclase. Una ontología formaliza la relación de clase, añade otras relaciones y especifica propiedades para individuos y clases. Ontology-vocabulary se refiere a una ontología concreta sobre un dominio concreto del conocimiento. El W3 Consortium ha desarrollado un modelo para representar ontologías utilizando RDF que se denomina OWL.

3 RDF + rdfschema

R esource Description Framework (RDF) es un modelo de representación de metadatos que, entre otras cosas, permite representar recursos digitales tales como sitios o páginas web. RDF está concebido para representar cualquier clase de recursos (no solamente páginas publicadas en la web). RDF Schema , por su parte, es una extensión de RDF que aporta un lenguaje con mayor capacidad para representar relaciones semánticas complejas.

2 XML + NS + XML SCHEMA

e Xtended Markup Language (XML) es un sistema que permite definir lenguajes de marcas para usos específicos. Name Spaces (NS) permite combinar diversos lenguajes de marcado creados con XML en un mismo documento. XML Schema sirve para definir tipos de documentos complejos en los que se pueden especificar tipos de datos, listas de componentes y restricciones similares a las del diccionario de datos típico de una base de datos.

1 Unicode + URI

Unicode es un sistema internacional estándar que proporciona un número único para cada carácter, sin importar la plataforma ni el programa. Esto permite representar caracteres de cualquier idioma con una codificación unificada. Uniform Resource Identifier (URI) es un sistema de direccionamiento e identificación de recursos. El sistema que usamos actualmente para acceder a los recursos de la Web (URL) es una parte de URI.

Actividad 3: Acceda a esta dirección: http://www.w3.org/2007/03/layerCake.png . Tendrá una visión gráfica de algunos de los elementos de la tabla anterior. Intente relacionar los elementos comunes del gráfico con los de la tabla. El diagrama tiene elementos extra, como “Unifiying Logic” que no están recogidos en la tabla, pero otros sí lo están, intente reconocerlos(para su facilidad, acontinuación reproducimos el diagrama).

Figura 1: Los componentes o “capas” de la Web semántica según el W3C

Hasta ahora, solamente las tres primeras capas que aparecen en la Tabla 1 (o sea, las filas no sombreadas) disponen de un buen desarrollo. Las siguientes capas han generado una gran cantidad de literatura técnica, científica y filosófica, así como diversos prototipos; pero a casi todos los efectos prácticos carecen de desarrollos reales, es decir, que se están aplicando con éxito en estos momentos. No obstante, no faltan las iniciativas.

Actividad 4 : Acceda al sitio web de Skos Core (http://www.w3.org/2004/02/skos/), una propuesta para representar sistemas de categorización y de organización de la información (tales como clasificaciones o tesauros) con tecnologías propias de la Web semántica. La idea es que revise el sitio libremente. Puede ser de su interés el apartado Tutorials, Presentations & Papers ( http://www.w3.org/2004/02/skos/references#tutorials ).

En este sentido, además de las iniciativas relacionadas con RDF (como la que podemos ver ejemplificada en la Actividad n. 4), existe una gran actividad alrededor de la idea de las ontologías (ver la fila n. 4 de la Tabla 1).

Actividad 5: Acceda al sitio del proyecto Protégé ( http://protege.stanford.edu/ ) para ver un proyecto que está recibiendo bastante atención y soporte sobre el desarrollo de ontologías para la Web semántica. Se trata de un software que ayuda a la visualización y edición de ontologías en el lenguaje OWL promovido y desarrollado por el W3C. Puede ser de interés para el alumno la sección User Documentation > Tutorials (http://protege.stanford.edu/doc/users.html).

En cambio, como hemos señalado, más allá de la capa 3 (es decir, de las ontologías en adelante) apenas se ha progresado. Algunos autores poco críticos con la Web Semántica suelen aducir el caso del buscador Swoogle ( http://swoogle.umbc.edu/ ) teóricamente un buscador capaz de utilizar ontologías. Pero un simple test con este buscador (o una lectura atenta de sus páginas de ayuda) nos indica que, de ningún modo es un buscador comparable a Google o Yahoo, ni lo pretende, y sus resultados se limitan a documentos escritos en RDF, es decir, busca sobre documentos que codifican clasificaciones, tesauros, etc., pero no busca sobre páginas web.

3. Conclusiones

El proyecto de la Web semántica se enfrenta a retos interesantes y valiosos cualquiera que sea la visión adoptada. El problema es que no existen precedentes, ni mucho menos, ni de bases de datos ni mucho menos de sistemas inteligentes a escala de algo como la Web: descentralizado, descoordinado, con intereses contrapuestos y con miles o decenas de miles actores independientes (empresas, autores de páginas, diseñadores, creadores de sofware, etc.).

Ahora bien, el W3C se complace con el uso de un registro de lenguaje que enmascara a veces las dificultades reales del proyecto de la Web semántica. De este discurso, por desgracia se contagian la mayor parte de los libros y artículos que se publican sobre el tema. A veces resulta lastimoso leer tanta literatura sobre la Web semántica como si ésta no solamente fuera factible a corto plazo, sino como si ya fuera una realidad cumplida.

Nosotros entendemos que, por el contrario, es importante destacar estas dificultades, en primer lugar por simple respeto a la verdad (o al menos lo que nosotros honestamente como tal), pero también por razones de eficiencia: si de verdad creemos en el proyecto, no es eficiente disimular sus dificultades.

Nadie puede discutir el acierto de Unicode, la racionalidad del sistema URI ni mucho menos el enorme logro que ha significado el lenguaje XML para casi todas las ramas de la ofimática y de la Biblioteconomía-Documentación. También aparecen bien justificadas las esperanzas que ha despertado RDF como modelo unificado de codificación y representación de metadatos. Sin embargo, a partir de aquí, todo lo relativo a las ontologías (OWL) y el uso de la lógica por parte de los ordenadores para realizar razonamientos y demostraciones está mucho menos claro.

Incluso aspectos aparentemente inocentes del proyecto, como imaginar una Web poblada exclusivamente (o mayoritariamente) por páginas impecablemente codificadas en XML (o XHTML) y con metadatos técnicamente correctos y éticamente adecuados resultan fuertemente contestados por la realidad de la Web tal como es hoy por hoy. Ciertamente, esta realidad puede cambiar en el futuro, pero para que la dimensión del cambio sea creíble para la década del 2010, deberíamos empezar a tener indicadores ya de ese cambio de los cuales, a fines del 2007 carecemos aún.

4. Bibliografía

Abadal, E.; Codina, L. Bases de datos documentales: características, funciones y método . Madrid: Síntesis, 2005

Codina, L. ; Rovira, C. “La Web semántica”. En: Tramullas, J. (coord.). Tendencias en documentación digital . Gijón: Trea, 2006

Semantic Web [artículo de la Wikipedia] http://en.wikipedia.org/wiki/Semantic_Web

Tramullas, J. (coord.) Tendencias en documentación digital . Gijón: Trea, 2006

Web Semántica y Sistemas de Información documental [web de un proyecto financiado sobre la Web semántica vinculado al autor] htp://www.semanticaweb.net/

World Wide Web Consortium. Semantic Web Activity [web oficial del proyecto]. http:// www.w3.org/2001/sw/



inicio temario calendario tutoría notas cambios comunica servicios buscar salir

© Master en Buscadores (IDEC-UPF)
14/2/2008