cargando menú...

inicio

temario

calendario

tutoría

notas

cambios

comunica

servicios

buscar

salir
Situación en la jerarquía: Posicionamiento -> Segunda parte -> Unidad P912 -> Artículo
Master en Buscadores
Artículo P912. Buscadores y metadatos
Autor: Lluís Codina

Usuario: . Tipo de página: Contenido. Fichero: pag348.htm
[imprimir] · [exportar a Openoffice]

Citación recomendada: Lluís Codina. Artículo P912. Buscadores y metadatos [en línea]. En Cristòfol Rovira; Lluís Codina (dir.). Máster en Buscadores. Barcelona: Área de Ciencias de la Documentación. Departamento de Periodismo y de Comunicación Audiovisual. Universidad Pompeu Fabra, 2007. http://www.masterenbuscadores.com [Consulta: 14 febrero 2008]

Sumario
1. Introducción
2. Metadatos
3. Metadatos para páginas web
4. Metadatos-HTML
5. Dublin Core
6. Conclusiones
7. Bibliografía

1. Introducción

Los metadatos son datos sobre datos, visto de otro modo, son informaciones sobre recursos. Como los recursos pueden ser a su vez informaciones (registradas en algún soporte), informaciones sobre recursos se considera en realidad información sobre la información (o datos sobre datos) y de aquí el término.

2. Metadatos

La agencia de normalización norteamericana NISO encargada de publicar las normas relacionadas con temas de información y documentación, define los metadatos de la siguiente forma:

“Información estructurada que describe, explica, localiza o bien facilita la recuperación, uso y gestión de recursos de información. Los metadatos son denominados a menudo datos sobre datos o información sobre información. El término metadato es usado de forma diferente por diferentes comunidades (...) En el entorno de las bibliotecas los metadatos son usados comúnmente para designar cualquier esquema formal de descripción de recursos aplicado a cualquier tipo de objeto, ya sea digital o no” (NISO, 2004)

La referencia de NISO al uso de los metadatos en bibliotecas sirve para señalar un hecho tan evidente que a veces nos pasa desapercibido, a saber, que es altamente ineficiente buscar información sin usar metadatos.

Cuando buscamos un libro en una biblioteca no empezamos examinando el primer libro de la primera fila de la primera estantería y vamos siguiendo por riguroso orden secuencial con el examen de todos y cada uno de los libros hasta que topamos con el que nos interesa. En lugar de ello, es mucho más eficiente utilizar el catálogo de la biblioteca (conjunto de metadatos) que nos revelerá lo posición exacta del libro mediante una clave (signatura) que actúa de puntero. O preguntaremos al bibliotecario, el cual hará exactamente lo señalado: consultar el catálogo para poder respondernos. Si queremos saber en qué canal proyectarán la película Y o el programa Z, no empezamos a cambiar de canal secuencialmente desde la mañana hasta la noche a ver si lo encontramos, sino que consultamos una guía de programas de televisión, etc.

Actividad 1: Descargue el documento mencionado de la organización NISO en esta dirección: http://www.niso.org/standards/resources/UnderstandingMetadata.pdf . Se trata de un documento de unas 20 páginas. Una vez descargado (o en pantalla), para esta actividad se recomienda leer los apartados What is Metadata? y What Does Metadata Do? (2 primeras páginas). Alternativa a la práctica anterior: consultar el artículo sobre metadatos de la Wikipedia (http://es.wikipedia.org/wiki/Metadato). En el documento de actividades indique cuál de las dos opciones siguió y la opinión sobre la fuente consultada: NISO o Wikipedia (no hace falta consultar las dos fuentes).

Ámbito digital

Ahora bien, aunque la definición de NISO destaca de forma acertada que los metadatos son aplicables a objetos tanto si son digitales como si no, lo cierto es que su nacimiento está vinculado al mundo digital; y su uso principal está vinculado a la gestión de documentos digitales, ya se trate de documentos textuales, icónicos (fotografía, vídeo) o multimedia. Los metadatos en el mundo analógico (p.e., la ficha bibliográfica de los fondos de una biblioteca) son, por supuesto y técnicamente hablando metadatos, pero solemos referirnos a ellos en cada caso de una manera distinta. Por ejemplo, nadie pregunta “dónde están los metadatos” en una biblioteca, sino “donde está (o dónde puedo consultar) el catálogo”. Otras veces hablamos de índices, de documentos secundarios, de normas de catalogación, etc.

Dos características distintivas de los metadatos, si consideramos al ámbito digital como su ámbito “natural”, y los comparamos con catálogos de biblioteca por ejemplo son que: (1) los metadatos forman parte del documento en lugar de ser un documento distinto y “distante” del documentos primario, y (2) pueden, y de hecho suelen, ser creados por los propios autores de los documentos (y no por terceras personas).

Para situar todo esto en su contexto, debemos señalar que existen, al menos, tres tipos distintos de metadatos:

  • Descriptivos . Para describir y representar propiedades semánticas de los recursos (páginas web, por ejemplo) con objetivos de identificación y recuperación de información. Los metadatos descriptivos suelen consistir en elementos tales como títulos, nombres de autores, palabras clave, resúmenes, etc.

  • Estructurales. Describen la forma o la composición de los recursos. En el caso de recursos digitales describen las partes que lo componen y su relación entre ellos a efectos, por ejemplo, de su reproducción y navegación.

  • Administrativos. Los metadatos de este tipo describen aspectos relacionados con la propiedad intelectual y la preservación. Incluyen elementos para describir cuándo y dónde fue creado el documento, derechos de acceso y reproducción, etc.

Los metadatos estructurales y administrativos tienen su ámbito principal de actuación en la gestión, la administración y la preservación de colecciones de cualquier tipo de documentos digitales, mientras que los metadatos descriptivos, como ya hemos señalado, tienen su aplicación en el campo de la recuperación de información. A partir de ahora, nos centraremos exclusivamente en esta última clase de metadatos.

Actividad 2: Entre en Intute ( www.intute.ac.uk ). Se trata de una base de datos sobre recursos digitales (páginas web). Haga una búsqueda en Intute por algún tema de su interés. Cuando tenga un registro descriptivo de una página, estará usted viendo un caso concreto de aplicación de metadatos. Ante la descripción de una página web cualquiera en Intute busque un enlace titulado Details , haga clic y vea los metadatos asociados al recurso. Se ofrece una pista en la siguiente captura.

3. Metadatos para páginas web

Casi todo el movimiento acerca de los metadatos (al menos bajo esta denominación y de la mano de la filosofía de metadatos como datos creados por los propios autores) procede de la idea que apareció en algún momento de los años 90 sobre la conveniencia de que las páginas web contuvieran, en una sección del código fuente que es invisible para los internautas (la sección head ) una descripción de sí mismas.

La idea original estaba relacionada con dos cosas: (1) la restricción a los menores de edad del acceso a páginas web para adultos y (2) mejorar la interpretación del contenido de la página por parte de los motores de búsqueda para proporcionar respuestas más precisas.

Actualmente, buena parte de la primera motivación se ha perdido por el descenso de la alarma que en su día provocó la aparición de sitios con contenidos eróticos o pornográficos, gracias a su vez a la existencia de software que realiza esa función de forma automática y de la protección que ofrecen los navegadores en este sentido (siempre que se programen de la forma adecuada, claro). No obstante, la norma original de metadatos en este sentido sigue vigente y puede consultarse en su página oficial ( http://www.w3.org/PICS/ ).

En relación al segundo objetivo, la mejora de la comprensión del contenido de las páginas por parte de los motores y su consiguiente mejora de eficacia, existen dos grandes formatos de metadatos, que denominaremos metadatos-HTML y Dublin Core y de los que nos ocuparemos exclusivamente en el resto de esta Unidad.

4. Metadatos-HTML

Con la versión 2 de HTML publicada a finales de 1995 tuvo lugar la aparición por primera vez del elemento meta (obviamente, meta es por metadatos). Este elemento se ha mantenido después en todas las versiones HTML (la última, la 4.01) así como en las versiones actuales de XHTML. Está previsto su mantenimiento en la futura norma XHMTL 2.0 aunque con pequeños cambios que probablemente mejorarán su funcionamiento. Como HXTML 2.0 es aún un borrador y puede cambiar todavía, preferimos centrarnos en la forma que tiene actualmente este formato (y que es el único estándar).

La norma (X)HTML declara explícitamente que la función del elemento meta está ligada a los buscadores: “Un uso común de META es especificar palabras clave que pueden usar los motores de búsqueda para mejorar la calidad de los resultados de una búsqueda”.

La sintaxis del elemento meta es la siguiente:

<meta name=”valor” content=”valor” />

Lo anterior se interpreta así: meta es la etiqueta o nombre del elemento, name y content son atributos del elemento; “ valor ” es una variable que en cada caso será un valor distinto. Veamos un ejemplo:

<meta name =”author” content =”Eduardo Manostijeras” />

Como es fácil de interpretar, el elemento anterior indica que el autor de la página se llama Eduardo Manostijeras. Este elemento, se sitúa dentro de la sección head de la página correspondiente, por lo tanto, el código fuente visto en su contexto sería así:

<head>

<title>Página personal de Eduardo Manostijeras</title>

< meta name= "author" content= "Eduardo Manostijeras" />

</head>

El lenguaje (X)HTML no especifica una lista predefinida de valores para el atributo name , pero los que menciona la propia norma a título de ejemplo son también los más utilizados de facto, y se trata de los siguientes:

  • author

  • keywords

  • description

Por tanto, el código fuente de la sección de metadatos de la página (imaginaria) de Eduardo Manostijeras, suponiendo que se tratase de la página de un profesional del mundo de la belleza y la moda podría ser éste:

<head>

<title> Página personal de Eduardo Manostijeras </title>

<meta name= "author" content="Eduardo Manostijeras" />

<meta name= "description" content="Consejos de belleza y moda, asesoría de imagen y nuevas propuestas de peinados y de cuidados para un cabello sano y reluciente" />

<meta name= "keywords" content="Belleza, Moda, Peluquería, Cabello sano, Consejos de belleza" />

</head>

Las buenas prácticas en codificación de páginas (X)HTML aconsejan que todas y cada una de las páginas de un sitio tengan al menos dos de los metadatos anteriores: description y keywords (así como author al menos en la primera página).

Como se puede observar, el valor esperado para description es una o más frases en lenguaje natural que, de forma resumida explique el contenido de la página (o del sitio, si es la página principal). Por su parte, para keywords se espera una lista de palabras clave separadas por comas.

La norma oficial no especifica ningún límite de extensión. La praxis más aceptada consiste en entrar entre una y cinco líneas de texto para description y entre 5 y 20 palabras clave para keywords .

La mala noticia es que los motores de búsqueda hace tiempo que dejaron de confiar en esta clase de metadatos. El motivo es que son demasiado fáciles de trucar, desde el momento que los usuarios no los ven y los motores sí. Por tanto, desde el punto de vista de los motores, los metadatos mal utilizados se han convertido en un caso de spam en buscadores. Tal spam en buscadores se produce cuando el responsable de una página intenta obtener una ventaja de posicionamiento por medios no éticos.

¿Entonces -pensarán ustedes- para qué perdemos el tiempo hablando de metadatos? Hay dos motivos, el primero para evitar que nos tomen el pelo con este tema. El segundo es que, a pesar de todo, se aconseja su utilización por los siguientes motivos: (1) al parecer, de acuerdo con algunos estudios, tienen un leve efecto positivo de posicionamiento si las palabras clave coinciden con el contenido real de la página (es decir, si no estamos practicando una modalidad de spam); (2)el metadato description  es altamente recomendable, ya que sirve para controlar el resumen que algunos motores colocan de la página en los resultados; (3) siempre podemos utilizar nuestros metadatos para optimizar el  tratamiento interno de nuestras páginas (intranets, motores internos, bases de datos propias, mantenimiento, etc.); (4) con el tiempo, lo cierto es que poner metadatos en nuestras páginas se ha convertido en un elemento de prestigio y de demostración de respeto por buenas prácticas que puede añadir credibilidad a nuestro sitio.

Actividad 3: Vaya a un sitio web de dos universidades (p.e., http://www.upf.edu y http://www.uc3m.es/ ) o de dos museos importantes (p.e., http://www.louvre.fr y http://museoprado.mcu.es/home.html ) y compruebe si el código fuente contiene metadatos en la sección head. Compárelos entre ellos. Si es el caso, repita la operación en algún sitio web con el que esté usted relacionado. Vea un ejemplo del sitio web web del Museo de Historia del Arte de Nueva York.

5. Dublin Core

La Iniciativa de Metadatos Dublin Core (DCMI) es una propuesta mucho más formalizada que la que hemos visto. Recientemente ha sido aprobada como norma ANSI/NISO. También hemos de señalar que tiene un mayor nivel de abstracción, una sintaxis mucho más precisa y elaborada así como muchas más posibilidades, por lo cual ni su presentación (ni su uso) es, ni mucho menos, tan simple como la anterior.

La norma Dublin Core (DC a partir de ahora) establece una lista de 15 elementos (denominados oficialmente The Dublin Core Metadata Element Set) que se pueden utilizar para representar o describir el contenido de una página web (o sea, un recurso en la terminología Dublin Core). Estos elementos suelen agruparse en tres subgrupos:

  • Contenido

  • Propiedad intelectual

  • Instanciación del recurso (datos relacionados con la versión o la edición concreta del recurso)

Las tablas siguientes muestran el nombre de cada elemento y su significado.

Tabla 1: Elementos relacionados con el contenido

Nombre

Descripción

Title

El nombre del recurso.

Subject

Tema del recurso, que puede ser expresado en forma de palabras clave o de códigos de clasificación. Se recomienda usar un vocabulario controlado.

Description

Descripción del recurso que puede adoptar la forma de un resumen o de una tabla de contenidos.

Source

La fuente de la que procede el recurso. La norma indica que el recurso puede proceder de un recurso anterior (p.e., una obra impresa), en cuyo caso recomienda indicarlo así.

Languaje

Idioma del recurso.

Relation

Un posible recurso relacionado.

Coverage

La norma indica literalmente: el alcance espacial o temporal del recurso, la aplicación espacial del recurso o la juridiscción bajo la que el recurso es relevante.

    Tabla 2: Elementos relacionados con la propiedad intelectual

    Nombre

    Descripción

    Creator

    La “entidad” responsable del recurso. Entidad puede ser una persona o una organización.

    Publisher

    La entidad responsable de la publicación del recurso, es decir, de que el recurso esté disponible. Puede ser una persona o una organización.

    Contributor

    Una entidad que haya hecho contribuciones al recurso. Puede ser una persona o una organización.

    Rights

    Información acerca de los derechos legales del recurso. Incluye información sobre propiedad intelectual.

    Tabla 3: Elementos relacionados con la instanciación

    Nombre

    Descripción

    Date

    Una fecha en el ciclo de vida del recurso, como la fecha de creación. Se puede expresar con cualquier nivel de granularidad: año, mes, día, etc.

    Type

    La naturaleza o género del recurso. Se recomienda usar un vocabulario controlado, como un tesauro.

    Format

    Formato del recurso (formato del fichero, del medio físico, las dimensiones, etc.)

    Identifier

    Una identificación unívoca (no ambigua) del recurso.

    La forma de codificar metadatos con DC mediante (X)HTML en una página web sigue el formato meta con las propiedades name y content . La propiedad name, a su vez, sigue este formato general: DC.elemento; por ejemplo: DC.creator . Por ejemplo, los metadatos de la página de Eduardo Manostijeras expresados con DC quedarían así:

    <head>

    <title> Página personal de Eduardo Manostijeras </title>

    <meta name= "DC.creator" content="Eduardo Manostijeras" />

    <meta name= "DC.description" content="Consejos de belleza y moda, asesoría de imagen y nuevas propuestas de peinados y de cuidados para un cabello sano y reluciente" />

    <meta name= "DC.subject" content="Belleza, Moda, Peluquería, Cabello sano, Consejos de belleza" />

    </head>

    Ningún elemento DC es obligatorio y todos los elementos se pueden repetir (para expresar diversos títulos o varios autores, por ejemplo). Las descripciones DC son compatible con otros lenguajes de metadatos. Por ejemplo, una misma página puede expresar los mismos metadatos en formato metadatos-HTML y en DC simplemente colocando unos después de otros en la sección head . Ahora bien, a diferencia de metadatos-HTML, los metadatos DC se pueden describir en archivos aparte, vinculados con la página que describen mediante el elemento link .

    Actividad 4: Vaya al la sección del sitio oficial de la Iniciativa Dublin Core dedicado a mostrar algunas de las herramientas online disponibles para ayudar a la creación y edición de metadatos ( http://dublincore.org/tools/ > Creating Metadata (Templates)). Seleccione una de las herramientas de edición online de metadatos y póngala a prueba con algún sitio web. Revise el código fuente generado, compárelo con los ejemplos de esta Unidad.

    El problema con los metadatos DC en relación a los motores es el mismo que vimos en el formato anterior: los motores desconfían de toda descripción dirigida directamente a los buscadores y que no es visible para los usuarios.

    No obstante, como en el caso anterior, se considera una buena práctica utilizar metadatos en DC por el hecho mencionado antes: en el caso que coincidan con el contenido de la página, pueden ayudar a posicionar un poco mejor la página, pero sin esperar "milagros". Adicionalmente, algunos programas de gestión de contenidos y de indización de páginas web para motores de búsqueda internos están preparados para utilizar metadatos Dublin Core. Esto significa que, por ejemplo, podemos tener un buscador interno que pernita búsquedas avanzadas por campos usando los metadatos Dublin Core. Por ejemplo, la revista BiD tiene un buscador interno que explota los metadatos Dublin Core de cada artículo de la misma: http://temaria.net/simple.php?1575-5886.

    En todo caso, DC es muy poco utilizado en páginas web de propósito general. Su ámbito de aplicación, de facto, está circunscrito a páginas de organismos gubernamentales, entidades vinculadas con la cultura y con la digitalización del patrimonio, etc. Se utiliza también en la representación de documentos en repositorios y en general en sitios web que disponen de un motor de búsqueda interno que permite después realizar búsquedas más precisas (como en el ejemplo mencionado de BiD) o en el repositorio E-LIS (http://eprints.rclis.org/perl/search/simple).

    Actividad 5: Vaya a la sección de proyectos de DCMI ( http://dublincore.org/projects/ ) y revise algunos de los proyectos seleccionados que muestran diversas aplicaciones de los metadatos DC. Lea las descripciones de algunos de los que parezcan de su interés. Pruebe a entrar en algunas de las sedes web de tales proyectos para ver contextos reales de aplicación de los metadatos. Sugerencia: lea la presentación del proyecto Art, Design, Architecture & Media Information Gateway and the Visual Arts Data Service (VADS).

    6. Conclusiones

    Los metadatos son un ejemplo de una muy buena idea echada a perder en parte por las malas prácticas con las que se ha implementado por parte de algunos en el  mundo SEO (una vez más estamos hablando de spam). Desde el punto de vista de los motores, el problema principal es que si hicieran un caso incondicional de los metadatos se encontrarían promocionando páginas sin ningún contenido de interés real. No obstante, como hemos intentado argumentar en esta Unidad los metadatos tienen un papel real e importante que jugar. Si los metadatos corresponden al contenido de la página son un factor positivo de posicionamiento (sin esperar milagros). Además, proporcionan un instrumento de primer orden para la gestión de la información mediante motores de búsqueda internos y bases de datos, sistemas de gestión de contenidos, etc.

    Para los motores de búsqueda, los auténticos metadatos proceden de otros elementos de las páginas (ver Unidades sobre posicionamiento) como el elemento title , la URL de la página, los elementos marcados con h1 o h2, el atributo alt en las imágenes, etc. La característica que tienen todos estos “metadatos” es que su contenido es visible para los visitantes de la página (y no solo para los motores), así que los responsables de la misma no pueden disponerlos de forma tan arbitraria, al menos, no sin pagar un precio en credibilidad ante el visitante o sin echar a perder la propia página.

    En cambio, la mera posibilidad de afirmar cualquier cosa de una página sin tener que pagar ningún precio real por ello (sin tener que crear los contenidos que justifiquen los metadatos) se reveló fatalmente atractiva para muchos creadores sin escrúpulos. La consecuencia, ya la hemos señalado: una buena oportunidad perdida.

    No obstante, ya hemos señalado también que es una buena práctica añadir al código fuente de todas nuestras páginas al menos los metadatos-HTML de author , description y keyword; tanto por razones de prestigio (se considera una buena práctica) como por el pequeño empujoncito que puede dar a nuestras páginas (pero solamente si el contenido real justifica los metadatos).

    Los sitios con contenidos de tipo cultural, académico o científico, y que dispongan de motores de búsqueda internos para facilitar la recuperación de información en el interior de su sitio web, tienen motivos sobrados para considerar la adopción de Dublin Core como su sistema de metadatos. Encontrarán un esquema de trabajo estándar, muy bien documentado, con multitud de herramientas disponibles y que es utilizado a nivel internacional, por tanto, eventualmente, podrán participar en formas de intercambio de información, proyectos internacionales, etc.

    Por último, DC se está utilizando de forma especialmente significativa en proyectos vinculados con la digitalización y preservación del patrimonio, así como en proyectos vinculados, por ejemplo, con recursos para educación. Un buen ejemplo es el Visual Art Data Service (VADS) del Reino Unido, cuya visita se recomendaba en la Actividad 5 (si no pudo hacerla antes, ahora es un buen momento). Por tanto, no crea usted que el simple hecho de poner bellos metadatos en su página le hará salir como resultado número 1 en Google (salvo que el contenido se corresponda), pero tampoco menosprecie el poder de los metadatos en otros contextos no menos importantes para el prestigio de su sitio, como los señalados en esta Unidad.

    7. Bibliografía

    Dublin Core Metadata Initiave (página oficial de la iniciativa Dublin Core): http://dublincore.org/

    Hillmann, D.I.; Westbrooks, E.L. Metadata in practice . Chicago: ALA, 2004

    NISO. Understanding metadata . Bethesda: NISO Press, 2004 (Acceso: http://www.niso.org/standards/resources/UnderstandingMetadata.pdf )

    Méndez, E. Metadatos y recuperación de información . Gijón: Trea, 2002

    Powell, A. “Expressing Dublin Core in HTML/XHTML meta and link elements”. DCMI, 2003 (Acceso: http://dublincore.org/documents/dcq-html/ )

    Senso, J.A. “Sistemas de metadatos para la Web semántica”. En: Tramullas, J. (coord.) Tendencias en documentación digital. Gijón: Trea, 2006



    inicio temario calendario tutoría notas cambios comunica servicios buscar salir

    © Master en Buscadores (IDEC-UPF)
    14/2/2008