
Servicios externos:
• Laboratorio Digital • Servicio de Alerta • Hipertext.net |
Citación recomendada: Lluís Codina.
Artículo F094. Web semántica y servicios de búsqueda [en línea]. En Cristòfol Rovira; Lluís Codina (dir.). Máster en Buscadores. Barcelona: Área de Ciencias de la Documentación. Departamento de Periodismo y de Comunicación Audiovisual. Universidad Pompeu Fabra, 2007.
1. Introducción 2. Componentes 3. Conclusiones 4. BibliografíaNota sobre la evaluación: de forma intercalada en el texto de este artículo encontrará el enunciado de diversas actividades. Para superar esta unidad didáctica deberá realizar estas actividades redactando un informe en el que se incluyan comentarios y, en caso que sea pertinente, una captura de pantalla de cada actividad para ilustrar su realización. Para entregar este informe deberá crear un solo documento para todos las actividades de esta unidad didáctica en formato OpenOffice o Word y de un máximo de 500 Kb. A continuación podrá usar el espacio de entrega y notificación perteneciente a este grupo de unidades didácticas. La realización de forma satisfactoria de este ejercicio implicará la obtención de 0,75 créditos.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Definición 1. La visión de la Inteligencia Artificial: La Web semántica es un conjunto de iniciativas destinadas a promover una futura Web cuyas páginas estén organizadas, estructuradas y codificadas de tal manera que los ordenadores sean capaces de efectuar inferencias y razonar a partir de sus contenidos. Definición 2. La visión del procesamiento robusto: La Web semántica es un conjunto de iniciativas destinadas a convertir la World Wide Web en una gran base de datos capaz de soportar un procesamiento sistemático y consistente de la información. |
En relación a la Definición 1, es evidente que los ordenadores actuales no son capaces de razonar ni de realizarinferencias en un modo similar al de los seres humanos, y ni tan solo hay atisbos de que puedan hacerlo en elfuturo.Por tanto, debemos dejar claro que el “razonamiento” que puede esperarse que sean capaces de realizar los ordenadores consistirá en una simulación (de razonamiento).
Veamos ahora la D efinición 2 vinculada a la visión del procesamiento robusto. Lo que separa a un conjunto de documentos con información no estructurada, y por tanto difícil de procesar y de explotar su contenido respecto de un conjunto de registros de una base de datos es la suma de tratamiento sistemático+metadatos propia de estos últimos (y ausente en los primeros).
Recordemos que la creación de una típica base de datos documental consiste en definir un grupo de campos, lo que equivaldría en nuestro caso a definir un conjunto de etiquetas como <autor>, <título>, etc., para marcar sistemáticamente en cada documento de la base de datos la información que en el documento original aparece sin ninguna identificación explícita. El segundo paso consistirá en vincular cada documento con metadatos mediante etiquetas del estilo <clasificación>, <tipo de documento>, <descriptores>, <fecha de creación>, etc.
Una vez tenemos lo anterior, hemos pasado de información desestructurada a información sistematizada en la que cada línea de texto, cada párrafo o cada grupo de párrafos forma parte deun campo y está vinculado a un conjunto de metadatos. A partir de aquí será sencillo conseguir que la base de datos simule una cierta inteligencia de la que carecen en estos momentos los motores de búsqueda, ya que será capaz de responder a preguntas que actualmente no puede responder un motor de búsqueda. Por ejemplo, en la actualidad no existe forma de pedir a un motor de búsqueda que busque documentos donde la palabra Eco se refiera al nombre de un autor y no a un fenómeno acústico. En cambio, en una base de datos documental es una operación tan trivial que nos pasa absolutamente desapercibida. Es a esta clase de procesamiento sistemático (predecible) y consistentea la que nos queremos referir con la expresión de procesamiento robusto.
Ahora bien, dada esta dicotomía, ¿h ay algún elemento común, alguna cosa que nos permita unificar o al menos articular las dos visiones? La respuesta, al menos en nuestra opinión es que sí. Si observamos los elementos de infraestructura en los que confía la visión de la IA, vemos que son en parte los mismos que se requieren para crear una base de datos, es decir los mismos de la visión del procesamiento robusto.
La segunda visión, la del procesamiento robusto, está mucho más pegada al terreno. Es solvente, porque se basa en elementos bien probados en el procesamiento de la información, y esa es su gran virtud. Su problema es que carece de la capacidad de fascinación de la primera. Es posible que, si el proyecto de la Web semántica se hubiera limitado a esta segunda visión (con una denominación más técnica, etc.), nunca hubiera trascendido de las páginas de las revistas especializadas.
Actividad 1: Una comprobación de la presencia de la Web semántica en los medios. Entre en Google Noticias ( http://news.google.es/ ) y haga una búsqueda por el término “web semántica”. Compruebe si los medios se ocupan de este tema (o al menos lo mencionan en algunas de sus noticias sobre la Web). Revise las noticias libremente (haga clic al menos en las dos o tres primeras). La captura siguiente muestra las noticias (un total de 18) que se obtuvieronen Google Noticias un día del mes de octubre del 2007 (solamente a efectos de ilustración).

Los medios con los cuales se persiguen los objetivos dela Web semántica son los siguientes: en primer lugar, utilizando una codificación de documentos en la cual las etiquetas tengan, precisamente, carga semántica. Este apartado corresponde al estándar denominado XML ( eXtensible Markup Language ). La versión de XML específicamente dedicada a páginas web es XHMTL, mientras quepara documentos ofimáticos se ha desarrollado OpenDocument (norma ISO sobre codificación de documentos ofimáticos que utilizan aplicaciones tan implantadas actualmente como OpenOffice).
En segundo lugar, aportando descripciones (metadatos) de las páginas y sitios web con un formato que sea compatible con la estructura general de la Web y con diversas categorías de páginas e interoperable entre distintos sistemas informáticos. De este se ocupa la norma RDF ( Resource Description Language ).
En tercer lugar, mediante un sistema de ontologías que permitan especificar conceptosde los diversos dominios del conocimiento mediante el uso de un lenguaje fuertemente basado en lógica simbólica y susceptible, por tanto, de ser eventualmente interpretado por un ordenador. De este aspecto se ocupa el denominado OWL Web Ontology Language (OWL), un sistema estándar propuesto por el W3C para representar y codificar ontologías. Existen además otros componentes de carácter más técnico que, si cumplen bien su misión, están destinados a pasar desapercibidos. En total, suelen considerarse siete componentes distintos.
Actividad 2: La oficina española del W3 Consortium ha publicado una guía muy breve sobre la web semántica ( http://www.w3c.es/Divulgacion/Guiasbreves/WebSemantica ) con algunos ejemplos concretos de posibles funcionalidades de la misma en el contexto de las búsquedas en el futuro.
E n la tabla siguiente presentamos comentamos estos componentes. La tabla debe interpretarse así: cada fila es como una capa o como las plantas de un edificio; las capas inferiores constituyen la infraestructura básica que soporta las prestaciones que proporcionarán las superiores una vez se haya completado el proyecto. En la primera columna mantenemos la terminología original del proyecto de acuerdo con el W3C.
Tabla 1: Las “capas” o niveles de la Web Semántica
| 7 Trust (+ Digital Signature) | La superior capa, Trust (confianza) debe servir para otorgar seguridad a las transacciones en la Web que se llevarán a cabo no solamente entre usuarios y sitios web sino también entre programas de software;y todo ello tanto en el plano C2B ( consumer to business ) como en el B2B ( business to business ). La llamada Digital Signature (firma digital) proporcionará soporte específico a esta capa. |
| 6 Proof | En este contexto, Proof (prueba) significa demostración lógica o matemática. Se considera que un ordenador alcanza la máxima fiabilidad en sus razonamientos cuando es capaz de realizar demostraciones o, lo que es lo mismo a efectos prácticos, cuando es capaz de justificar el motivo por el cual tomó (o aconsejó tomar) una decisión. Como la Web semántica está relacionada con ideas de Inteligencia Artificial esta capa será necesaria para que los usuarios (humanos) confien en las decisiones de los agentes de software. |
| 5 Logic | En este contexto, logic se refiere a la ciencia que estudia las reglas formales que permiten determinar si un razonamiento se sigue necesariamente de sus premisas. La lógica estudia, por tanto, la estructura de los razonamientos válidos. Se espera que los ordenadores del futuro puedan efectuar razonamientos sobre los recursos y servicios de la Web combinando los conocimientos expresados en las ontologías, los hechos declarados en los metadatos y la aplicación de reglas lógicas. |
| 4 Ontology vocabulary | Una ontología es una especificación formal de un dominio del conocimiento que, en su expresión más simple, se identifica con una taxonomía. Una taxonomía consiste en una jerarquía de conceptos y sus relaciones del tipo clase-subclase. Una ontología formaliza la relación de clase, añade otras relaciones y especifica propiedades para individuos y clases. Ontology-vocabulary se refiere a una ontología concreta sobre un dominio concreto del conocimiento. El W3 Consortium ha desarrollado un modelo para representar ontologías utilizando RDF que se denomina OWL. |
| 3 RDF + rdfschema | R esource Description Framework (RDF) es un modelo de representación de metadatos que, entre otras cosas, permite representar recursos digitales tales como sitios o páginas web. RDF está concebido para representar cualquier clase de recursos (no solamente páginas publicadas en la web). RDF Schema , por su parte, es una extensión de RDF que aporta un lenguaje con mayor capacidad para representar relaciones semánticas complejas. |
| 2 XML + NS + XML SCHEMA | e Xtended Markup Language (XML) es un sistema que permite definir lenguajes de marcas para usos específicos. Name Spaces (NS) permite combinar diversos lenguajes de marcado creados con XML en un mismo documento. XML Schema sirve para definir tipos de documentos complejos en los que se pueden especificar tipos de datos, listas de componentes y restricciones similares a las del diccionario de datos típico de una base de datos. |
| 1 Unicode + URI | Unicode es un sistema internacional estándar que proporciona un número único para cada carácter, sin importar la plataforma ni el programa. Esto permite representar caracteres de cualquier idioma con una codificación unificada. Uniform Resource Identifier (URI) es un sistema de direccionamiento e identificación de recursos. El sistema que usamos actualmente para acceder a los recursos de la Web (URL) es una parte de URI. |
Actividad 3: Acceda a esta dirección: http://www.w3.org/2007/03/layerCake.png . Tendrá una visión gráfica de algunos de los elementos de la tabla anterior. Intente relacionar los elementos comunes del gráfico con los de la tabla. El diagrama tiene elementos extra, como “Unifiying Logic” que no están recogidos en la tabla, pero otros sí lo están, intente reconocerlos(para su facilidad, acontinuación reproducimos el diagrama).

Figura 1: Los componentes o “capas” de la Web semántica según el W3C
Hasta ahora, solamente las tres primeras capas que aparecen en la Tabla 1 (o sea, las filas no sombreadas) disponen de un buen desarrollo. Las siguientes capas han generado una gran cantidad de literatura técnica, científica y filosófica, así como diversos prototipos; pero a casi todos los efectos prácticos carecen de desarrollos reales, es decir, que se están aplicando con éxito en estos momentos. No obstante, no faltan las iniciativas.
Actividad 4 : Acceda al sitio web de Skos Core (http://www.w3.org/2004/02/skos/), una propuesta para representar sistemas de categorización y de organización de la información (tales como clasificaciones o tesauros) con tecnologías propias de la Web semántica. La idea es que revise el sitio libremente. Puede ser de su interés el apartado Tutorials, Presentations & Papers ( http://www.w3.org/2004/02/skos/references#tutorials ).
En este sentido, además de las iniciativas relacionadas con RDF (como la que podemos ver ejemplificada en la Actividad n. 4), existe una gran actividad alrededor de la idea de las ontologías (ver la fila n. 4 de la Tabla 1).
Actividad 5: Acceda al sitio del proyecto Protégé ( http://protege.stanford.edu/ ) para ver un proyecto que está recibiendo bastante atención y soporte sobre el desarrollo de ontologías para la Web semántica. Se trata de un software que ayuda a la visualización y edición de ontologías en el lenguaje OWL promovido y desarrollado por el W3C. Puede ser de interés para el alumno la sección User Documentation > Tutorials (http://protege.stanford.edu/doc/users.html).
En cambio, como hemos señalado, más allá de la capa 3 (es decir, de las ontologías en adelante) apenas se ha progresado. Algunos autores poco críticos con la Web Semántica suelen aducir el caso del buscador Swoogle ( http://swoogle.umbc.edu/ ) teóricamente un buscador capaz de utilizar ontologías. Pero un simple test con este buscador (o una lectura atenta de sus páginas de ayuda) nos indica que, de ningún modo es un buscador comparable a Google o Yahoo, ni lo pretende, y sus resultados se limitan a documentos escritos en RDF, es decir, busca sobre documentos que codifican clasificaciones, tesauros, etc., pero no busca sobre páginas web.
El proyecto de la Web semántica se enfrenta a retos interesantes y valiosos cualquiera que sea la visión adoptada. El problema es que no existen precedentes, ni mucho menos, ni de bases de datos ni mucho menos de sistemas inteligentes a escala de algo como la Web: descentralizado, descoordinado, con intereses contrapuestos y con miles o decenas de miles actores independientes (empresas, autores de páginas, diseñadores, creadores de sofware, etc.).
Ahora bien, el W3C se complace con el uso de un registro de lenguaje que enmascara a veces las dificultades reales del proyecto de la Web semántica. De este discurso, por desgracia se contagian la mayor parte de los libros y artículos que se publican sobre el tema. A veces resulta lastimoso leer tanta literatura sobre la Web semántica como si ésta no solamente fuera factible a corto plazo, sino como si ya fuera una realidad cumplida.
Nosotros entendemos que, por el contrario, es importante destacar estas dificultades, en primer lugar por simple respeto a la verdad (o al menos lo que nosotros honestamente como tal), pero también por razones de eficiencia: si de verdad creemos en el proyecto, no es eficiente disimular sus dificultades.
Nadie puede discutir el acierto de Unicode, la racionalidad del sistema URI ni mucho menos el enorme logro que ha significado el lenguaje XML para casi todas las ramas de la ofimática y de la Biblioteconomía-Documentación. También aparecen bien justificadas las esperanzas que ha despertado RDF como modelo unificado de codificación y representación de metadatos. Sin embargo, a partir de aquí, todo lo relativo a las ontologías (OWL) y el uso de la lógica por parte de los ordenadores para realizar razonamientos y demostraciones está mucho menos claro.
Incluso aspectos aparentemente inocentes del proyecto, como imaginar una Web poblada exclusivamente (o mayoritariamente) por páginas impecablemente codificadas en XML (o XHTML) y con metadatos técnicamente correctos y éticamente adecuados resultan fuertemente contestados por la realidad de la Web tal como es hoy por hoy. Ciertamente, esta realidad puede cambiar en el futuro, pero para que la dimensión del cambio sea creíble para la década del 2010, deberíamos empezar a tener indicadores ya de ese cambio de los cuales, a fines del 2007 carecemos aún.
Abadal, E.; Codina, L. Bases de datos documentales: características, funciones y método . Madrid: Síntesis, 2005
Codina, L. ; Rovira, C. “La Web semántica”. En: Tramullas, J. (coord.). Tendencias en documentación digital . Gijón: Trea, 2006
Semantic Web [artículo de la Wikipedia] http://en.wikipedia.org/wiki/Semantic_Web
Tramullas, J. (coord.) Tendencias en documentación digital . Gijón: Trea, 2006
Web Semántica y Sistemas de Información documental [web de un proyecto financiado sobre la Web semántica vinculado al autor] htp://www.semanticaweb.net/
World Wide Web Consortium. Semantic Web Activity [web oficial del proyecto]. http:// www.w3.org/2001/sw/
| inicio | temario | calendario | tutoría | notas | cambios | comunica | servicios | buscar | salir |