cargando menú...

inicio

temario

calendario

tutoría

notas

cambios

comunica

servicios

buscar

salir
Situación en la jerarquía: Fundamentos -> Primera parte -> Unidad F910 -> Artículo
Master en Buscadores
Artículo F910. Características básicas de buscadores y directorios
Autor: Lluís Codina

Usuario: . Tipo de página: contenido. Fichero: pag105.htm
[imprimir] · [exportar a Openoffice]

Citación recomendada: Lluís Codina. Artículo F910. Características básicas de buscadores y directorios [en línea]. En Cristòfol Rovira; Lluís Codina (dir.). Máster en Buscadores. Barcelona: Área de Ciencias de la Documentación. Departamento de Periodismo y de Comunicación Audiovisual. Universidad Pompeu Fabra, 2007. http://www.masterenbuscadores.com [Consulta: 14 febrero 2008]

Sumario
1. Introducción
2. Navegación versus Interrogación
   2.1. Los Directorios y la Navegación
   2.2. ¿Es lo mismo navegar que interrogar?
   2.3. Los Motores de Búsqueda y la Interrogación
      2.3.1. Cálculo de Relevancia
      2.3.2. Análisis de enlaces
      2.3.3. Análisis de las propiedades de la página
      2.3.4. La página de resultados
3. Directorios vs . motores: las diferencias tecnológicas
   3.1. Directorios
   3.2. Motores
4. Conclusiones
5. Bibliografía

Nota sobre la evaluación: de forma intercalada en el texto de este artículo encontrará el enunciado de diversas actividades. Para superar esta unidad didáctica deberá realizar estas actividades redactando un informe en el que se incluyan comentarios y, en caso que sea pertinente, una captura de pantalla de cada actividad para ilustrar su realización. Para entregar este informe deberá crear un solo documento para todos las actividades de esta unidad didáctica en formato OpenOffice o Word y de un máximo de 500 Kb. A continuación podrá usar el espacio de entrega y notificación perteneciente a este grupo de unidades didácticas. La realización de forma satisfactoria de este ejercicio implicará la obtención de 0,75 créditos.

1. Introducción

Motores de búsqueda y directorios son las dos formas más importantes de buscar (y encontrar) información en la Web. En particular, los motores de búsqueda son actualmente una de las vías que mayor tráfico proporciona a los sitios web. Debido a una serie de factores, tales como la concentración de los usuarios en los motores a expensas de los directorios y la enorme cuota de mercado de la que gozan los principales motores, tras unos años con una gran diversidad de sistemas disponibles, en la actualidad, existe apenas tres grandes motores de búsqueda y dos directorios generalistas. Se trata de los siguientes:

Motores

Directorios

Google http://www.google.es

Yahoo http://es.dir.yahoo.com

Yahoo-Search http://es.search.yahoo.com

Dmoz http://www.dmoz.org

Windows Live http://live.com

.

Tabla 1: Motores y directorios

2. Navegación versus Interrogación

La primera y más útil distinción que puede establecerse para el objetivo de esta unidad es la que existe entre dos formas básicas de buscar y, en su caso, obtener información en la Web y que son las siguientes:

  • Navegación

  • Interrogación

Cada una de estas dos formas básicas de buscar información se corresponde con dos grandes categorías de servicios de información en la Web: (1) Directorios y (2) Motores de búsqueda , con lo cual podemos establecer este cuadro funcional que relaciona modos de acceder a la información con tipos de servicios:

El modo de acceso a la información por:

Se utiliza en:

Navegación

Directorios Ejemplo:Yahoo >

http://es.dir.yahoo.com

Interrogación

Motores de búsqueda Ejemplo: Google >

http://www.google.com

Tabla 2: Modo de acceso a la información

2.1. Los Directorios y la Navegación

La actividad de búsqueda que recibe el nombre de navegación consiste en la realización de una serie de desplazamientos sucesivos a través de una determinada estructura de información, hasta que, en su caso, se encuentra lo que se busca. Estos desplazamientos consisten en elecciones sucesivas que se expresan en forma de clics sobre enlaces. Hacemos navegación, por tanto, cuando nos desplazamos a través del sistema jerárquico de categorías en directorios como:

Yahoo: http://es.dir.yahoo.com

Dmoz: http://www.dmoz.org/world/ > Español

En conjunto, todo el proceso de navegación presenta un marcado carácter intuitivo; de hecho, tanto más intuitivo y fácil para el usuario cuanto más esfuerzo de diseño haya puesto el autor de la estructura de navegación. La navegación presenta un componente intuitivo porque no se requiere apenas entrenamiento previo para utilizar las facilidades de navegación propias de la Internet en general o de directorios como Yahoo en particular.

Actividad 1:

Acceda al directorio de Yahoo (es.dir.yahoo.com) y realice una práctica de navegación intentando localizar, por navegación, esto es, mediante desplazamientos por la jerarquía del directorio, la secció dedicada a Museos y Centros Culturales.

Actividad 2 :

Acceda a Dmoz ( www.dmoz.org/world/ > Español) e intente localizar la categoría equivalente de Museos. Compare la respectivas formas de clasificar de uno y otro directorio. En concreto:

En Yahoo , la jerarquía sigue este orden: Directorio > Arte y Cultura > Museos y Centros Culturales

En Dmoz: Top > World > Español > Referencia > Museos

Observe que, aunque los principios organizativos (la categorización) son distintos, en ambos tenemos una categoría raíz ( Directorio , Top ) y después una serie de subcategorías cada vez más específicas hasta que llagamos a la página de resultados de cada directorio donde aparece una lista más o menos amplia de sitios web de museos.

2.2. ¿Es lo mismo navegar que interrogar?

Como hemos visto, la página de resultados de un directorio como Yahoo o Dmoz consiste en una lista de sitios web. Sin embargo, cuando realizamos una operación de búsqueda con un motor como Google, el resultado también consiste en una página de resultados con una lista de sitios web.

Por tanto, si al final siempre tenemos una lista de sitios web ¿qué tiene de diferente la navegación comparada con la interrogación? Es muy importante observar esta cuestión con cuidado. Si, pese a todo, la navegación y la interrogación proporcionan al fin lo mismo, a saber, una lista de sitios web, ¿qué más da una cosa u otra?

La respuesta es que, en realidad, no proporcionan los mismos resultados por la sencilla razón de que no pueden afrontar las mismas clases de necesidades de información. La navegación, por ejemplo, no es un buen sistema para cruzar conceptos, simplemente porque no lo permite. Podemos saber, por navegación, qué recursos en Yahoo, por ejemplo, tratan de televisión; también podemos saber qué recursos tratan de legislación así como qué recursos tratan sobre la infancia. Pero no hay ninguna forma eficiente de saber qué recursos tratan de legislación aplicada los programas de televisión para niños mediante navegación, a menos que hagamos al menos tres búsquedas secuenciales entre cientos o miles de páginas web, cosa poco recomendable: cuando obtengamos la respuesta ya se habrá acabado el proyecto para el cual nos hicieron el encargo...

2.3. Los Motores de Búsqueda y la Interrogación

La recuperación de información por interrogación consiste en entrar palabras o frases en un formulario (en lugar de movernos por una estructura jerárquica). La respuesta consiste en páginas, no en sitios, es decir, la respuesta puede consistir en una página web situada en un bajo nivel de profundidad del sitio. En cambio, en un directorio, en general encontramos únicamente el acceso a la página principal del sitio. Además, aunque la mayor parte de las respuestas consiste en páginas web, también puede incluir documentos ofimáticos creados con programas como Word, PowerPoint, etc. (por ello, cuando describimos las características de los motores, a veces hablamos de documentos en general y no de páginas o de sitios).


Ilustración 1: La página de resultados de Google incluye documentos como PDF y páginas a distintos niveles de profundidad

Para llegar al resultado que muestra la Ilustración 1, el usuario ha debido introducir una o más palabras (que denominaremos a partir de ahora, “palabras clave”) en el formulario de búsqueda de un motor como Google y, partir de aquí, se ha puesto en marcha un proceso en dos partes:

  1. Filtrado : el motor selecciona de su índice las páginas web que contienen la palabra (o palabras) clave de la búsqueda. Si el usuario no introduce ningún operador, buscará documentos que contengan todas las palabras.

  2. Ordenación (ranking): el motor presenta una página de resultados con los documentos recuperados ordenados según su grado de relevancia, de forma que los documentos con mayor probabilidad de ser útiles (es decir, relevantes a la pregunta) se presentarán en primer lugar. De este modo, el usuario puede limitar su inspección a los 10, 20 o 30 primeros documentos, aunque el sistema haya recuperado miles o cientos de miles.

Actividad 3:

Vaya Google y haga una o varias consultas sobre un tema de su interés. Examine los diez primeros resultados y trate de determinar si siempre se trata de la página principal de un sitio o si, por el contrario, se trata indistintamente de páginas situadas en cualquier nivel del sitio. Compruebe si, entre los resultados, se encuentran documentos distintos de páginas web, por ejemplo, documentos en formato pdf.

2.3.1. Cálculo de Relevancia

Puesto que el hecho de presentar los resultados por orden de relevancia es una de las prestaciones más importantes de los motores, es importante entender cómo calculan esa relevancia, es decir, en base a qué los motores de búsqueda deciden si una página web es más relevante que otra y, por tanto, en base a qué ordenan las páginas web en su listado de respuestas.

En este sentido, Google creó una nueva era al introducir por primera vez el análisis de enlaces como el componente principal de su cálculo de relevancia. Hasta entonces, los motores como AltaVista (el más popular hasta la llegada de Google) solamente utilizaban una serie de características vinculadas con el contenido de la página como las que veremos más adelante.

Actualmente y como consecuencia del modelo o paradigma que introdujo Google en las búsquedas, la forma en la cual se calcula la relevancia de una página combina dos grupos de análisis o factores:

  1. Análisis de enlaces

  2. Análisis de las propiedades de la página

2.3.2. Análisis de enlaces

En Internet, un enlace, como es sabido, es la unión entre dos páginas. Los motores de búsqueda interpretan los enlaces de una página hacia otra como un voto. Por tanto, si la página A enlaza a la página B , entonces Google (por ejemplo) interpreta que la página B ha recibido un voto de A . Si muchas otras página enlazan a B , entonces Google interpreta que la página B es muy importante. Cuando alguien introduzca una búsqueda que contenga alguna palabra clave presente en la página B , ésta tiene muchas probabilidades de quedar situada en los primeros resultados.

Dicho de forma muy sintética, pero muy ajustada a la realidad, el análisis de enlaces consiste en determinar el número de enlaces que recibe una página y la calidad de estos enlaces. Dicho de otro modo: una página que reciba muchos enlaces de otras páginas que, a su vez, sean muy enlazadas, será una página muy importante para los motores de búsqueda. Por tal motivo, una página de esas características tenderá a quedar en las primeras posiciones de la página de resultados del motor de búsqueda (siempre que alguien haya preguntado por alguna palabra clave que esté presente en esa página, claro está). Por último, se puede considerar parte del análisis de enlaces lo siguiente: la aparición de las palabras clave en las URL de las páginas web. Por ejemplo, la palabra clave  "barcelona" en una URL como esta: <www.fcbarcelona.com> haría que la página anterior quedara entre los primeros resultados para una búsqueda por la palabra clave "barcelona" (por la cadena "barcelona" dentro de "fcbarcelona") y con más motivo, para una palabra clave idéntica a la URL como "fcbarcelona".  Este, junto con el resto de elementos del análisis de enlaces, es uno de los factores más importantes del posicionamiento de una página o un sitio.

2.3.3. Análisis de las propiedades de la página

Además del análisis de enlaces, los motores de búsqueda consideran diversas características de las páginas para decidir su importancia relativa de cara a una pregunta determinada. En particular, Google afirma utilizar hasta un centenar de criterios. Se trata de criterios como éstos:

  • La frecuencia absoluta de la palabras clave (cuántas veces en total aparecen en el documento).

  • La frecuencia relativa de las palabras clave (la frecuencia absoluta dividida por el número total de palabras de la página)

  • La ubicación de las palabras clave en la estructura del documento (si la palabra aparece en el título, la página será más importante)

  • La proximidad entre las palabras clave (si la pregunta tiene dos palabras clave, y en una página aparecen juntas, esa página será más importante)

  • Otras características como si la palabra clave está marcada en negritas, forma parte del texto de algún enlace, etc.

Actividad 4:

Haga las mismas preguntas sobre algunos temas de su interés tanto en Google como en Windows Live. Examine los diez primeros resultados de cada pregunta y trate de determinar cuál de los dos motores suelen proporcionar resultados más relevantes o de mayor calidad. Las estadísticas dicen que, en general, Google arrojará mejores resultados. Compruebe si es así también en su caso.

2.3.4. La página de resultados

La página de resultados de un motor de búsqueda (SERP por sus siglas en inglés: Search Engine Result Page) contiene dos tipos de resultados:

  1. Resultados pagados (publicidad). Denominados enlaces patrocinados en Google.

  2. Resultados no pagados (resultados naturales u orgánicos).

Cabe señalar que solamente en los resultados no pagados (llamados también naturales u orgánicos) se aplican los criterios de cálculo de relevancia señalados antes. Los resultados pagados, o de publicidad, en cambio deben su posición principalmente (aunque no únicamente) a la cantidad de dinero que el anunciante está dispuesto a pagar al motor de búsqueda por cada vez que un internauta hada clic en el su anuncio (o por cada vez que se imprima el anuncio).

Actividad 5:

Vaya a Google y haga una búsqueda por un término muy comercial. Por ejemplo, use la palabra clave “móviles”, u “ordenadores”, o “billetes de avión”, etc. y compruebe la forma diferente en la que Google separa los resultados orgánicos de los resultados de publicidad (Enlaces patrocinados).

3. Directorios vs . motores: las diferencias tecnológicas

3.1. Directorios

Los directorios son creados y mantenidos mediante esfuerzo intelectual. O sea, tienen equipos de personas detrás realizan cada una de las labores de organización del directorio.

Estas personas organizan la información asignando los sitios web a una o más categorías o subcategorías de un cuadro de clasificación. La idea, por tanto, es que cada recurso o sede web se puede asignar, por lo menos a una categoría. Esta asignación se realiza de modo "manual" (o intelectual, como preferimos decir nosotros). Es decir, hay un equipo de personas, denominados editores, que examinan los sitios web y, a la vista de su contenido, deciden a qué categorías pueden ser asignados.

Por ejemplo, en el caso de Yahoo cada categoría forma parte de una categoría más general (excepto las 14 categorías principales) y cada categoría puede tener diversas subcategorías. Finalmente, dentro de cada categoría o subcategoría, se encuentran las listas de sitios web, presentadas por orden alfabético. Como todo el proceso de selección y asignación de categorías se realiza de forma intelectual, los directorios incluyen, por comparación, una proporción muy pequeña (de hecho, una parte ínfima) de la totalidad de las páginas y documentos de Internet.

Lo esencial de los directorios: son sistemas de clasificación de sitios web. Cada sitio está categorizado mediante su inclusión en una categoría o subcategoría. Los directorios clasifican sitios principalmente, no páginas ni documentos individuales. Toda la labor de clasificación se realiza “a mano”. El acceso a la información se realiza por navegación, aunque suelen disponer de un sistema de interrogación que permite buscar en los títulos y la descripción (breve) de los sitios presentes en el directorio. Y una última precisión: los internautas están dejando de usar los directorios para centrarse casi exclusivamente en los motores... Volveremos sobre esto en las conclusiones.

3.2. Motores

Los motores de búsqueda localizan la información (esto es, páginas web y documentos disponibles en servidores), la analizan y crean después los índices que facilitarán su acceso, Y todo esto lo hacen de forma automática, es decir, mediante el uso exclusivo o preferente de programas informáticos. El esfuerzo intelectual está puesto en la concepción del software que desarrolla las labores anteriores, no en el análisis y la categorización de la información. Así, como todo el proceso se realiza de forma automática, los motores de búsqueda pueden proponerse (aunque no lo consiguen) localizar e indizar la totalidad de los sitios, páginas y documentos de la Web.

El porcentaje de cobertura que proporciona un motor como Google se estima que debe estar alrededor del 60 por ciento. Es decir, en un momento determinado, se calcula que en los índices de Google se encuentra representado, más o menos, el 60 por ciento de todas las páginas de la Web. Estamos hablando claro está, de la Web indizable, por que hay una parte de la Web en la que los motores de búsqueda no pueden entrar, como intranets y sitios protegidos con passwords, por ejemplo. Existe una proporción de la web indizable que no aparece en los motores de búsqueda por diversas razones: en primer lugar, la web crece a mucha más velocidad que la velocidad a la cual los robots de los motores descubren e incorporan las páginas a su índice. Otras veces se debe a problemas técnicos del servidor o de codificación de la página que impiden que los motores las encuentren, así como al hecho de que algunas páginas no reciben nunca ningún enlace externo de otras páginas que ya estén en el índice del motor, etc.

La cuestión es que el núcleo de un motor de un búsqueda es su índice (y no un sistema de clasificación como ocurre en cambio con los directorios). Estos índices analíticos se construyen, como ya hemos dicho, de forma totalmente automática. El proceso, conceptualmente hablando, se desarrolla así: cada motor de búsqueda (Google, Yahoo-Search, AllTheWeb, AltaVista) posee un programa, denominado crawler o robot que, de forma automática, recorre los distintos sitios web de Internet y copia parte o la totalidad del contenido los mismos en sus ordenadores. Otro programa, un indizador, identifica cada palabra (cadena de caracteres de cada página o documento) y crea un índice con esas palabras. En este índice, cada palabra está asociada al título y la dirección (URL) de la página donde aparece la palabra.

El portal de Yahoo tiene, a la vez, un directorio y un motor de búsqueda. Para diferenciarlos, llamamos Yahoo-Search al motor de búsqueda, y Yahoo a secas al directorio.

Cuando el usuario consulta un motor de búsqueda, no está consultando directamente la Internet, como muchos usuarios creen, sino el índice que ha construido el motor de búsqueda. Si las palabras que emplea el usuario en la búsqueda figuran en el índice, el motor de búsqueda selecciona las referencias correspondientes y las muestra al usuario, ordenada por grado de relevancia en la página de resultados.

De este modo, cada recurso digital o documento web queda representado en el índice mediante un conjunto de palabras o frases, llamados términos de indización porque forman parte del mencionado índice, en lugar de estar asignado a una sola categoría pre establecida. Se supone que este conjunto de términos de indización son característicos del contenido del documento, de modo que si el artículo de esta Unidad que el lector tiene ahora en pantalla estuviera indizado por ese procedimiento, el conjunto de términos que se generaría coincidiría más o menos con cada una de las palabras de este artículo excluyendo los términos más comunes, como la palabra “los”, la palabra “éste”, la palabra “de”, y así hasta unas 300 palabras comunes para cada lengua (otros aplican fórmulas estadísticas más o menos sofisticadas para incluir solamente una parte de las palabras, por ejemplo, las 250 palabras más significativas de cada página).

Cuando un usuario busca información, expresa su necesidad utilizando palabras con la esperanza de que estén presentes únicamente en los documentos relevantes. El motor de búsqueda compara entonces los términos de la pregunta con los que figuran en el índice y selecciona de este modo todos los documentos o páginas que coinciden, total o parcialmente, con dicha expresión de búsqueda.

Lo esencial de los motores: son sistemas de creación de índices que permiten el acceso a la información presente en la Web mediante el análisis automático de los documentos . Desarrollan todas sus funciones de forma automática y cubren una parte muy considerable de la Web. Los índices de los motores proporcionan acceso a los documentos por todas y cada una de las palabras principales de los mismos y no solamente mediante su asignación a una categoría. Actualmente constituyen la forma privilegiada por los usuarios de buscar información en la Web.

4. Conclusiones

La irrupción de Google en el mercado de los buscadores a inicios del 2000 cambió la forma en la cual los internautas usaban la información en la Web. Los motores de búsqueda de la era pre-Google proporcionaban a la vez una enorme cantidad de ruido (resultados inexactos) y una enorme cantidad de silencio (resultados relevantes no recuperados). Debido a ello, los directorios gozaban en su momento de una gran popularidad y eran tan usados como los motores. De hecho, la popularidad actual de Yahoo es debida enteramente a su función primitiva como directorio.

En los últimos años, sin embargo, dado el enorme incremento de precisión de que gozan los motores, en particular Google, los directorios apenas se utilizan. De hecho, la mayoría de los usuarios que se han incorporado a la Web en los últimos cuatro o cinco años, ignora directamente la existencia de los directorios, lo cual nos lleva a preguntarnos por su supervivencia. Claramente: ¿es posible que, en cuatro o cinco años más hayan desaparecido totalmente?. No desaparecerá nunca el acceso a la información por navegación (que seguirá presente en sitios web, portales, bases de datos, directorios especializados, etc.), pero es muy posible que desaparezcan en cambio los dos únicos grandes directorios generalistas que aún perviven actualmente (Yahoo y Dmoz) dada su nula utilización por parte de las nuevas generaciones que se van incorporando a Internet.

5. Bibliografía

Abadal, E.; L. Codina. Bases de datos documentales: Características, funciones y método . Madrid: Síntsis, 2005

Gutiérrez, J.D.; López Guisado, A. Google . Madrid: Anaya, 2005

Milstein, S.; Biersdorfer, J:D.; MacDonald, M. Google: The missing manual . Sebastopol: O'Reilly, 2006

Tramullas, J. Tendencias en documentación digital . Gijón: Trea, 2006



inicio temario calendario tutoría notas cambios comunica servicios buscar salir

© Master en Buscadores (IDEC-UPF)
14/2/2008