
Servicios externos:
• Laboratorio Digital • Servicio de Alerta • Hipertext.net |
Citación recomendada: Lluís Codina.
Artículo P912. Buscadores y metadatos [en línea]. En Cristòfol Rovira; Lluís Codina (dir.). Máster en Buscadores. Barcelona: Área de Ciencias de la Documentación. Departamento de Periodismo y de Comunicación Audiovisual. Universidad Pompeu Fabra, 2007.
1. Introducción 2. Metadatos 3. Metadatos para páginas web 4. Metadatos-HTML 5. Dublin Core 6. Conclusiones 7. Bibliografía
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<meta name=”valor” content=”valor” /> |
Lo anterior se interpreta así: meta es la etiqueta o nombre del elemento, name y content son atributos del elemento; “ valor ” es una variable que en cada caso será un valor distinto. Veamos un ejemplo:
<meta name =”author” content =”Eduardo Manostijeras” /> |
Como es fácil de interpretar, el elemento anterior indica que el autor de la página se llama Eduardo Manostijeras. Este elemento, se sitúa dentro de la sección head de la página correspondiente, por lo tanto, el código fuente visto en su contexto sería así:
<head> <title>Página personal de Eduardo Manostijeras</title> < meta name= "author" content= "Eduardo Manostijeras" /> </head> |
El lenguaje (X)HTML no especifica una lista predefinida de valores para el atributo name , pero los que menciona la propia norma a título de ejemplo son también los más utilizados de facto, y se trata de los siguientes:
author
keywords
description
Por tanto, el código fuente de la sección de metadatos de la página (imaginaria) de Eduardo Manostijeras, suponiendo que se tratase de la página de un profesional del mundo de la belleza y la moda podría ser éste:
<head> <title> Página personal de Eduardo Manostijeras </title> <meta name= "author" content="Eduardo Manostijeras" /> <meta name= "description" content="Consejos de belleza y moda, asesoría de imagen y nuevas propuestas de peinados y de cuidados para un cabello sano y reluciente" /> <meta name= "keywords" content="Belleza, Moda, Peluquería, Cabello sano, Consejos de belleza" /> </head> |
Las buenas prácticas en codificación de páginas (X)HTML aconsejan que todas y cada una de las páginas de un sitio tengan al menos dos de los metadatos anteriores: description y keywords (así como author al menos en la primera página).
Como se puede observar, el valor esperado para description es una o más frases en lenguaje natural que, de forma resumida explique el contenido de la página (o del sitio, si es la página principal). Por su parte, para keywords se espera una lista de palabras clave separadas por comas.
La norma oficial no especifica ningún límite de extensión. La praxis más aceptada consiste en entrar entre una y cinco líneas de texto para description y entre 5 y 20 palabras clave para keywords .
La mala noticia es que los motores de búsqueda hace tiempo que dejaron de confiar en esta clase de metadatos. El motivo es que son demasiado fáciles de trucar, desde el momento que los usuarios no los ven y los motores sí. Por tanto, desde el punto de vista de los motores, los metadatos mal utilizados se han convertido en un caso de spam en buscadores. Tal spam en buscadores se produce cuando el responsable de una página intenta obtener una ventaja de posicionamiento por medios no éticos.
¿Entonces -pensarán ustedes- para qué perdemos el tiempo hablando de metadatos? Hay dos motivos, el primero para evitar que nos tomen el pelo con este tema. El segundo es que, a pesar de todo, se aconseja su utilización por los siguientes motivos: (1) al parecer, de acuerdo con algunos estudios, tienen un leve efecto positivo de posicionamiento si las palabras clave coinciden con el contenido real de la página (es decir, si no estamos practicando una modalidad de spam); (2)el metadato description es altamente recomendable, ya que sirve para controlar el resumen que algunos motores colocan de la página en los resultados; (3) siempre podemos utilizar nuestros metadatos para optimizar el tratamiento interno de nuestras páginas (intranets, motores internos, bases de datos propias, mantenimiento, etc.); (4) con el tiempo, lo cierto es que poner metadatos en nuestras páginas se ha convertido en un elemento de prestigio y de demostración de respeto por buenas prácticas que puede añadir credibilidad a nuestro sitio.
Actividad 3: Vaya a un sitio web de dos universidades (p.e., http://www.upf.edu y http://www.uc3m.es/ ) o de dos museos importantes (p.e., http://www.louvre.fr y http://museoprado.mcu.es/home.html ) y compruebe si el código fuente contiene metadatos en la sección head. Compárelos entre ellos. Si es el caso, repita la operación en algún sitio web con el que esté usted relacionado. Vea un ejemplo del sitio web web del Museo de Historia del Arte de Nueva York.

La Iniciativa de Metadatos Dublin Core (DCMI) es una propuesta mucho más formalizada que la que hemos visto. Recientemente ha sido aprobada como norma ANSI/NISO. También hemos de señalar que tiene un mayor nivel de abstracción, una sintaxis mucho más precisa y elaborada así como muchas más posibilidades, por lo cual ni su presentación (ni su uso) es, ni mucho menos, tan simple como la anterior.
La norma Dublin Core (DC a partir de ahora) establece una lista de 15 elementos (denominados oficialmente The Dublin Core Metadata Element Set) que se pueden utilizar para representar o describir el contenido de una página web (o sea, un recurso en la terminología Dublin Core). Estos elementos suelen agruparse en tres subgrupos:
Contenido
Propiedad intelectual
Instanciación del recurso (datos relacionados con la versión o la edición concreta del recurso)
Las tablas siguientes muestran el nombre de cada elemento y su significado.
Tabla 1: Elementos relacionados con el contenido
Nombre | Descripción |
Title | El nombre del recurso. |
Subject | Tema del recurso, que puede ser expresado en forma de palabras clave o de códigos de clasificación. Se recomienda usar un vocabulario controlado. |
Description | Descripción del recurso que puede adoptar la forma de un resumen o de una tabla de contenidos. |
Source | La fuente de la que procede el recurso. La norma indica que el recurso puede proceder de un recurso anterior (p.e., una obra impresa), en cuyo caso recomienda indicarlo así. |
Languaje | Idioma del recurso. |
Relation | Un posible recurso relacionado. |
Coverage | La norma indica literalmente: el alcance espacial o temporal del recurso, la aplicación espacial del recurso o la juridiscción bajo la que el recurso es relevante. |
Tabla 2: Elementos relacionados con la propiedad intelectual
Nombre | Descripción |
Creator | La “entidad” responsable del recurso. Entidad puede ser una persona o una organización. |
Publisher | La entidad responsable de la publicación del recurso, es decir, de que el recurso esté disponible. Puede ser una persona o una organización. |
Contributor | Una entidad que haya hecho contribuciones al recurso. Puede ser una persona o una organización. |
Rights | Información acerca de los derechos legales del recurso. Incluye información sobre propiedad intelectual. |
Tabla 3: Elementos relacionados con la instanciación
Nombre | Descripción |
Date | Una fecha en el ciclo de vida del recurso, como la fecha de creación. Se puede expresar con cualquier nivel de granularidad: año, mes, día, etc. |
Type | La naturaleza o género del recurso. Se recomienda usar un vocabulario controlado, como un tesauro. |
Format | Formato del recurso (formato del fichero, del medio físico, las dimensiones, etc.) |
Identifier | Una identificación unívoca (no ambigua) del recurso. |
La forma de codificar metadatos con DC mediante (X)HTML en una página web sigue el formato meta con las propiedades name y content . La propiedad name, a su vez, sigue este formato general: DC.elemento; por ejemplo: DC.creator . Por ejemplo, los metadatos de la página de Eduardo Manostijeras expresados con DC quedarían así:
<head> <title> Página personal de Eduardo Manostijeras </title> <meta name= "DC.creator" content="Eduardo Manostijeras" /> <meta name= "DC.description" content="Consejos de belleza y moda, asesoría de imagen y nuevas propuestas de peinados y de cuidados para un cabello sano y reluciente" /> <meta name= "DC.subject" content="Belleza, Moda, Peluquería, Cabello sano, Consejos de belleza" /> </head> |
Ningún elemento DC es obligatorio y todos los elementos se pueden repetir (para expresar diversos títulos o varios autores, por ejemplo). Las descripciones DC son compatible con otros lenguajes de metadatos. Por ejemplo, una misma página puede expresar los mismos metadatos en formato metadatos-HTML y en DC simplemente colocando unos después de otros en la sección head . Ahora bien, a diferencia de metadatos-HTML, los metadatos DC se pueden describir en archivos aparte, vinculados con la página que describen mediante el elemento link .
Actividad 4: Vaya al la sección del sitio oficial de la Iniciativa Dublin Core dedicado a mostrar algunas de las herramientas online disponibles para ayudar a la creación y edición de metadatos ( http://dublincore.org/tools/ > Creating Metadata (Templates)). Seleccione una de las herramientas de edición online de metadatos y póngala a prueba con algún sitio web. Revise el código fuente generado, compárelo con los ejemplos de esta Unidad.
El problema con los metadatos DC en relación a los motores es el mismo que vimos en el formato anterior: los motores desconfían de toda descripción dirigida directamente a los buscadores y que no es visible para los usuarios.
No obstante, como en el caso anterior, se considera una buena práctica utilizar metadatos en DC por el hecho mencionado antes: en el caso que coincidan con el contenido de la página, pueden ayudar a posicionar un poco mejor la página, pero sin esperar "milagros". Adicionalmente, algunos programas de gestión de contenidos y de indización de páginas web para motores de búsqueda internos están preparados para utilizar metadatos Dublin Core. Esto significa que, por ejemplo, podemos tener un buscador interno que pernita búsquedas avanzadas por campos usando los metadatos Dublin Core. Por ejemplo, la revista BiD tiene un buscador interno que explota los metadatos Dublin Core de cada artículo de la misma: http://temaria.net/simple.php?1575-5886.
En todo caso, DC es muy poco utilizado en páginas web de propósito general. Su ámbito de aplicación, de facto, está circunscrito a páginas de organismos gubernamentales, entidades vinculadas con la cultura y con la digitalización del patrimonio, etc. Se utiliza también en la representación de documentos en repositorios y en general en sitios web que disponen de un motor de búsqueda interno que permite después realizar búsquedas más precisas (como en el ejemplo mencionado de BiD) o en el repositorio E-LIS (http://eprints.rclis.org/perl/search/simple).
Actividad 5: Vaya a la sección de proyectos de DCMI ( http://dublincore.org/projects/ ) y revise algunos de los proyectos seleccionados que muestran diversas aplicaciones de los metadatos DC. Lea las descripciones de algunos de los que parezcan de su interés. Pruebe a entrar en algunas de las sedes web de tales proyectos para ver contextos reales de aplicación de los metadatos. Sugerencia: lea la presentación del proyecto Art, Design, Architecture & Media Information Gateway and the Visual Arts Data Service (VADS).
Los metadatos son un ejemplo de una muy buena idea echada a perder en parte por las malas prácticas con las que se ha implementado por parte de algunos en el mundo SEO (una vez más estamos hablando de spam). Desde el punto de vista de los motores, el problema principal es que si hicieran un caso incondicional de los metadatos se encontrarían promocionando páginas sin ningún contenido de interés real. No obstante, como hemos intentado argumentar en esta Unidad los metadatos tienen un papel real e importante que jugar. Si los metadatos corresponden al contenido de la página son un factor positivo de posicionamiento (sin esperar milagros). Además, proporcionan un instrumento de primer orden para la gestión de la información mediante motores de búsqueda internos y bases de datos, sistemas de gestión de contenidos, etc.
Para los motores de búsqueda, los auténticos metadatos proceden de otros elementos de las páginas (ver Unidades sobre posicionamiento) como el elemento title , la URL de la página, los elementos marcados con h1 o h2, el atributo alt en las imágenes, etc. La característica que tienen todos estos “metadatos” es que su contenido es visible para los visitantes de la página (y no solo para los motores), así que los responsables de la misma no pueden disponerlos de forma tan arbitraria, al menos, no sin pagar un precio en credibilidad ante el visitante o sin echar a perder la propia página.
En cambio, la mera posibilidad de afirmar cualquier cosa de una página sin tener que pagar ningún precio real por ello (sin tener que crear los contenidos que justifiquen los metadatos) se reveló fatalmente atractiva para muchos creadores sin escrúpulos. La consecuencia, ya la hemos señalado: una buena oportunidad perdida.
No obstante, ya hemos señalado también que es una buena práctica añadir al código fuente de todas nuestras páginas al menos los metadatos-HTML de author , description y keyword; tanto por razones de prestigio (se considera una buena práctica) como por el pequeño empujoncito que puede dar a nuestras páginas (pero solamente si el contenido real justifica los metadatos).
Los sitios con contenidos de tipo cultural, académico o científico, y que dispongan de motores de búsqueda internos para facilitar la recuperación de información en el interior de su sitio web, tienen motivos sobrados para considerar la adopción de Dublin Core como su sistema de metadatos. Encontrarán un esquema de trabajo estándar, muy bien documentado, con multitud de herramientas disponibles y que es utilizado a nivel internacional, por tanto, eventualmente, podrán participar en formas de intercambio de información, proyectos internacionales, etc.
Por último, DC se está utilizando de forma especialmente significativa en proyectos vinculados con la digitalización y preservación del patrimonio, así como en proyectos vinculados, por ejemplo, con recursos para educación. Un buen ejemplo es el Visual Art Data Service (VADS) del Reino Unido, cuya visita se recomendaba en la Actividad 5 (si no pudo hacerla antes, ahora es un buen momento). Por tanto, no crea usted que el simple hecho de poner bellos metadatos en su página le hará salir como resultado número 1 en Google (salvo que el contenido se corresponda), pero tampoco menosprecie el poder de los metadatos en otros contextos no menos importantes para el prestigio de su sitio, como los señalados en esta Unidad.
Dublin Core Metadata Initiave (página oficial de la iniciativa Dublin Core): http://dublincore.org/
Hillmann, D.I.; Westbrooks, E.L. Metadata in practice . Chicago: ALA, 2004
NISO. Understanding metadata . Bethesda: NISO Press, 2004 (Acceso: http://www.niso.org/standards/resources/UnderstandingMetadata.pdf )
Méndez, E. Metadatos y recuperación de información . Gijón: Trea, 2002
Powell, A. “Expressing Dublin Core in HTML/XHTML meta and link elements”. DCMI, 2003 (Acceso: http://dublincore.org/documents/dcq-html/ )
Senso, J.A. “Sistemas de metadatos para la Web semántica”. En: Tramullas, J. (coord.) Tendencias en documentación digital. Gijón: Trea, 2006
| inicio | temario | calendario | tutoría | notas | cambios | comunica | servicios | buscar | salir |