Nota sobre la evaluación: de forma intercalada en el texto de este artículo encontrará el enunciado de diversas actividades. Para superar esta unidad didáctica deberá realizar estas actividades redactando un informe en el que se incluyan comentarios y una captura de pantalla de cada actividad para ilustrar su realización. Para entregar este informe deberá crear un documento (OpenOffice o Word) de un máximo de 500 Kb y usar el espacio de entrega y notificación perteneciente a este grupo de unidades didácticas. La realización de forma satisfactoria de este ejercicio implicará la obtención de 0,75 créditos.
1. Introducción
Desde la aparición de internet en la segunda mitad del siglo XX, y la creación de la web en los noventa, el contenido accesible a través de internet no ha dejado de aumentar, constituyendo una ingente cantidad de documentos que continúa creciendo aparentemente de forma ilimitada, y haciendo que el hallazgo de información útil para los usuarios se haya convertido en una tarea tediosa y difícil. Dicho crecimiento ha propiciado la aparición de los motores de búsqueda, herramientas que tratan de localizar aquellos recursos web que satisfacen las necesidades de sus usuarios. En este tema se estudiará qué son y cómo funcionan estas herramientas, se analizarán los motores de búsqueda más populares en este momento, y se indicarán cuáles podrían ser las líneas futuras que marquen su evolución.
2. ¿Qué es un buscador?
Los buscadores, o motores de búsqueda, son herramientas que permiten realizar consultas sobre el contenido de la web. Hoy día estas aplicaciones se han convertido en la principal herramienta para navegar por Internet, ya que facilitan el acceso a la información que estamos buscando a través de los enlaces que nos muestran como resultado.
3. ¿Cómo funcionan?
Para entender el funcionamiento de un motor de búsqueda es necesario conocer previamente sus partes componentes. Los buscadores tradicionales constan de cuatro partes:
Spider
Índice
Interfaz de búsqueda
Software de relevancia
Los spiders (o arañas de búsqueda) son programas software que recorren la web leyendo el contenido textual de las páginas que visitan para su indexación, registrando a la vez los enlaces que desde éstas se realizan hacia otras páginas. Con la información extraida por el spider se genera un índice , también conocido como catálogo. De este modo, cuando realizamos una consulta en un buscador no estamos buscando realmente en la web, sino en el índice de ese buscador, que representa el contenido de la web analizada por su spider y que, en función de la calidad de éste último, abarcará un mayor o menor número de páginas, que además podrán estar más o menos actualizadas (dependiendo de la frecuencia con la que el spider actualice el índice).
La parte visible de todo buscador es su interfaz . Dependiendo del buscador que utilicemos encontraremos un tipo u otro de interfaz, no obstante, casi todos los buscadores presentan las siguientes opciones:
Permiten al usuario la introducción de consultas mediante el uso de palabras clave, palabras que suelen ser revisadas por un corrector para evitar fallos ortográficos y que avisa y propone palabras alternativas al usuario cuando cree reconocer un error.
Facilitan la búsqueda de información en distintos formatos: texto, imágenes, video, etc. y de distinta naturaleza (por ejemplo, la búsqueda de noticias).
Ofrecen opciones de búsqueda avanzada que permiten, por ejemplo, la utilización de operadores booleanos, la selección del tipo de archivo a buscar, el idioma de la información a recuperar, o el número de resultados que deseamos que nos muestre.
Muestra los resultados obtenidos para una consulta en una lista de enlaces ordenada por relevancia.
El último componente de un buscador es el software de relevancia . Cada buscador aplica sus propios criterios a la hora de decidir qué contenido (documento) satisface mejor las necesidades expresadas por un usuario. Estas aplicaciones constituyen así la pieza clave del buscador, pues de su funcionamiento dependerá en gran medida el nivel de satisfacción de los usuarios. Aunque es imposible enumerar con precisión cuáles son los aspectos claves que utilizan los mejores buscadores a la hora de asignar la relevancia a los resultados que obtienen, sí sabemos que ésta dependerá en gran medida de la aparición en los documentos de las palabras utilizadas en la formulación de la consulta, así como de la popularidad de estos documentos o páginas, es decir, del número de enlaces que reciban de otras páginas web.
El funcionamiento de un buscador es por tanto el siguiente: en primer lugar el usuario introduce una consulta, es decir, un conjunto de palabras clave que describen su necesidad de información a través del interfaz de consulta; a continuación el buscador mira en su índice qué documentos contienen las palabras introducidas por el usuario, así como también la popularidad de esas páginas (es decir, la cantidad y calidad de los enlaces que reciben); por último presenta como resultados estas páginas ordenadas en función de su relevancia, es decir, mostrará los documentos ordenados en función del número de palabras que compartan con la consulta formulada, y en el caso de compartir el mismo número de términos, también en función de la popularidad de cada página.
4. ¿Cuáles son los principales buscadores?
La generalización del uso de los buscadores como herramientas para navegar a través de la web ha hecho que proliferen cientos de iniciativas que compiten entre sí para atraer a los usuarios. No obstante, sólo una decena pueden considerarse populares, siendo además sólo cuatro de ellos los que concentran la mayoría de las búsquedas. Estos son:
Los restantes merecen ser mencionados por su popularidad relativa:
A continuación nos centraremos principalmente en la comparación de los cuatros principales motores de búsqueda del mercado, no obstante, también se mencionarán algunos aspectos especialmente relevantes que incorporan otros buscadores.
4.1. Google
Google fue creado por Larry Page y Sergey Brin en 1998, a raíz de una idea nacida tres años antes cuando sólo eran estudiantes de doctorado en la Universidad de Stanford. A día de hoy Google está considerado el mayor y más eficiente motor de búsqueda del mercado.
Sin duda alguna las claves su éxito son:
Hasta la aparición de Google los motores de búsqueda recuperaban la información de la web sólo en función de la frecuencia de aparición de las palabras introducidas por el usuario como consulta en cada documento. Es decir, si un usuario introducía la consulta “arte contemporaneo”, el motor de búsqueda ofrecía como resultados más relevantes aquellos documentos o sitios web en los que se repetían más veces ambas palabras.
Google introdujo una nueva teconología para calcular la relevancia de un sitio o un documento web. Es la denominada tecnología PageRank, que examina toda la estructura de vínculos (enlaces) de la web para identificar las páginas más importantes para una temática dada. ¿Cómo determina Google esa importancia? La respuesta es “en función de los enlaces que recibe cada página”. Es decir, cuanto más enlaces (externos) recibe una página, mayor importancia le otorga Google. Además, todos los enlaces recibidos no tienen el mismo valor. Cuanto mayor es la importancia de una página más valen sus enlaces, o lo que es lo mismo, los enlaces que se hacen desde las páginas que a su vez reciben muchos enlaces, valen más que los enlaces que se hacen desde las páginas que reciben pocos enlaces. De este modo, Google toma en consideración tanto la popularidad de una página (su PageRank) como el número de veces que aparecen los términos de la consulta en la misma, y en función de ambos parámetros determina su relevancia y decide la posición que dicha página debe ocupar en la lista de resultados. Los resultados más relevantes serán los primeros de la lista.
Además Google amplió y mejoró el análisis del contenido de las páginas, y es que en lugar de limitarse a explorar el texto de una página, analiza todo el contenido de ésta, incluidas las fuentes, las subdivisiones y la ubicación precisa de todas las palabras. También analiza el contenido de las páginas web cercanas para garantizar que los resultados son los más relevantes respecto a la consulta del usuario.
Hoy por hoy, todas estas innovaciones introducidas por Google han sido adoptadas por la mayoría de buscadores, no obstante, la constante mejora de su tecnología de búsqueda, y la continua ampliación de sus servicios a los usuarios, han hecho que Google siga siendo el mejor buscador generalista existente en la web.
En cuanto a sus características, desde la página principal de Google puede encontrarse información en un gran número de idiomas, leer titulares de noticias, realizar búsquedas en más de 880 millones de imágenes y utilizar el mayor archivo del mundo de mensajes de Usenet , compuesto por más de 845 millones de entradas que se remontan a 1981.
También ofrece formas de acceder a toda esta información sin pasar forzosamente por la página principal de Google, mediante el uso de la barra Google, que permite realizar búsquedas en Google desde el navegador y en cualquier ubicación de la web. Así mismo, Google permite realizar búsqueda a través de dispositivos portátiles. Google ha desarrollado la primera tecnología de búsqueda inalámbrica que convierte al momento el código HTML a formatos optimizados para WAP, i-mode, J-SKY y EZWeb.
En cuanto a su modelo de negocio, Google genera ingresos ofreciendo a sus anunciantes la oportunidad de publicar anuncios en línea. Con el fin de que el usuario conozca cuando un resultado está patrocinado Google distingue los anuncios de los resultados de la búsqueda. De este modo no se permite que los anunciantes obtengan un ranking más elevado previo pago.
Google en cifras:
Número de páginas web indexadas: más de 8.000 millones
Imágenes indexadas: más de 880 millones
Mensajes usenet: más de 845 millones
Idiomas en los que puede utilizarse Google: más de 100
Idiomas en los que Google ofrece sus resultados: 35
Dominios internacionales: más de 100
Empleados: más de 2500
Servicios al usario:
Búsqueda normal
Búsqueda avanzada
Motor de búsqueda académico
Motor de búsqueda de libros
Búsqueda de imágenes
Búsqueda de videos
Búsqueda de mapas
Búsqueda de noticias
Motor de búsqueda de blogs
Búsqueda de código de programación
Directorio
Servicio de alertas de noticias
Otras utilidades:
Calculadora
Traductores automáticos (BETA)
Búsqueda de archivos en pdf
Páginas similares
Búsqueda de enlaces entrantes a una página
Búsqueda en un dominio específico
Operadores booleanos
Actividad: Acceda a Google y estudie su interfaz. Analice las opciones de búsqueda que le ofrece, y realice al menos tres consultas: una en su página de inicio (búqueda simple), otra en la búsqueda de imágenes, por último, haga una tercera búsqueda introduciendo como término de consulta el término ambiguo "jaguar" (su ambiguedad radica en el hecho de que es un término polisémico que puede hacer referencia tanto a un tipo de pantera como a una marca de coches de lujo -- entre otros significados). En las tres consultas observe los resultados obtenidos, tanto en la primera página como en páginas posteriores. Anote o recuerde las características de este buscador y el grado de satisfacción que ha alcanzado con él en sus busquedas, pues más adelante deberá compararlo con el resto de buscadores que se describen en esta unidad.
4.2. Yahoo!
Yahoo! está presente en cinco países europeos (Alemania, Francia, Italia, Reino Unido y España) , en tres latinoamericanos (Argentina, México y Brasil) además de en Australia ,Canadá, China, Corea, Hong-Kong, Japón, Singapur, Taiwan y recientemente en la India.
Las dos personas que desarrollaron Yahoo!, David Filo y el Dr. Jerry Yang, estudiantes de doctorado de Ingeniería Eléctrica en la Universidad de Stanford, comenzaron la guía Yahoo! en abril de 1994, como un modo de hacer un seguimiento de sus intereses personales en Internet. Muy pronto se dieron cuenta de que sus listas de "andar por casa" estaban creciendo demasiado y resultaban difíciles de manejar. Poco a poco comenzaron a dedicar más y más tiempo a Yahoo!.
Durante 1994 convirtieron Yahoo! en una base de datos personalizada diseñada para cubrir las necesidades de miles de usuarios que comenzaron a utilizar el servicio a través de la muy limitada comunidad de Internet. Desarrollaron un software personalizado para localizar, identificar y editar de forma eficaz el material almacenado en Internet.
Los principales servicios de búsqueda que Yahoo! ofrece en este momento a sus usarios son:
Además dispone de toda una serie de utilidades agrupadas en torno a cuatro categorías que permiten a los internuatas acceder a:
Categoría “Infórmate”: distintos servicios de búsqueda, noticias, boletines, guías, etc.
Categoría “Compra”: alojamiento web, viajes, etc.
Categoría “Diviértete”: juegos, televisión, música, etc.
Categoría “Comunícate”: chat, correo, grupos, GeoCities, etc.
Al igual que Google, Yahoo! ofrece a sus usuarios la posibilidad de instalar en los navegadores su barra de herramientas que permite realizar búsquedas desde la misma con independencia de la ubicación web en la que nos encontremos. Así mismo, los enlaces patrocinados son indicados mediante el sombreado del fondo de los mismos, siguiendo la estética elegida por Google.
Actividad: realice con Yahoo! el mismo ejercicio que se le especificaba para Google. Analice su interfaz, compruebe las opciones de búsqueda que le ofrece, y realice las mismas consultas que hizo con Google. Preste atención a los resultados. ¿Son los mismo que obtuvo con Google? A usted le parecen ¿mejores o peores?
4.3. Windows Live
Es una seria apuesta de Microsoft para competir por la hegemonía de las búsquedas en Internet. Su estética es sencilla y muy parecida a la de Google. Presenta en su pantalla de búsqueda prácticamente las mismas opciones que éste: búsqueda en la web, búsqueda de imágenes, de noticias, y de mapas. Adolece de la opción de búsqueda avanzada, si bien su interfaz para la búsqueda de imágenes supera a la de Google. Así mismo dispone de un buscador académico que, en estos momentos, también mejora al conocido Google Scholar (o Google Académico).
La presentación de los resultados de búsqueda es idéntica a la de Google, mostrando el título del enlace, y muy brevemento el texto de la página donde se ha encontrado la palabra que hemos introducido como consulta. Además, marca también con sombreado los enlaces patrocinados, de manera que el usuario pueda distinguir los resultados reales de aquellos introducidos previo pago para las palabras seleccionadas como criterio de búsqueda.
A diferencia de Google y Yahoo! este buscador no da acceso directo a otros servicios (como noticias, compras, etc.), sino que es necesario acudir a MSN Hotmail para acceder a ellos.
Actividad: vuelva a repetir el ejercicio ya realizado con Google y Yahoo! con este nuevo buscador. Compare de nuevo los resultados obtenidos anteriormente con los que le ofrece Windows Live.
4.4. Ask.com
Presenta una interfaz de búsqueda muy similar a la de Google y Windows Live, si bien incorpora en su margen derecho un menú que permite seleccionar distintas opciones:
Al igual que los buscadores mencionados identifica los enlaces patrocinados. Además, en el caso de algunos enlaces, presenta una opción de previsualización de las páginas web tan sólo colocando el cursor sobre un icono que aparece junto al enlace, facilitando así la decisión de seleccionar o no el mismo sin necesidad de abandonar la página de resultados. Para los usuarios registrados ofrece además la posibilidad de guardar y organizar en carpetas nuestros resultados favoritos.
Actividad: acceda a Ask.com. Analice las opciones de búsqueda que le ofrece. Realice también en este buscador las tres consultas que se le han pedido previamente. ¿Qué le parecen los resultados?
4.5. Perspectivas futuras de los motores de búsqueda generalistas
A la vista de lo comentado, podemos apreciar una clara tendencia al desarrollo de motores de búsqueda que se caracterizan por su facilidad de uso, tendencia marcada por el éxito de Google, cuya tecnología está siendo mimetizada por todos sus principales competidores. No obstante, estos motores adolecen de serios inconvenientes. Probablemente el más importante de ellos sea la dificultad que conlleva encontrar resultados relevantes. El objetivo de cualquier usuario de un motor de búsqueda es acceder a la información que satisface su necesidad de información en el menor tiempo posible, objetivo que pocas veces satisfacen los motores de búsqueda actuales, ya que en sus recuperaciones proporcionan tanta información que terminan saturando a los usuarios, y haciendo que estos tengan que emplear bastante tiempo hasta localizar los resultados deseados. Ello se debe en gran medida a que los interfaces de consulta de estos sistemas se basan en el empleo de palabras clave, y éstas no siempre son eficaces para la recuperación de información. Esto se debe por un lado a la ambigüedad que subyace en muchos términos del lenguaje. Las consultas que tienen términos ambiguos pueden recuperar documentos no relevantes para el usuario. Por otro lado, los usuarios formulan normalmente consultas muy cortas, siendo estas consultas cortas las que más posibilidades tienen de ser ambiguas. De hecho, es habitual que los usuarios de los motores de búsquedas tengan que formular diferentes consultas antes de poder hallar una respuesta satisfactoria.
Con el objeto de solucionar estos problemas algunos motores de búsqueda (como Yahoo!) están estudiando en este momento la posibilidad de implementar métodos para sugerir consultas alternativas a los usuarios. Su objetivo es ayudar a los usuarios a especificar consultas alternativas durante el proceso de búsqueda, tarea que se realiza mediante el análisis de los resultados consultados previamente por otros usuarios que utilizaron los mismos términos de búsqueda.
Por otro parte, también son muy interesantes las iniciativas que tratan de paliar el problema de la ambigüedad terminológica, mediante el desarrollo de buscadores que permiten organizar y presentar los resultados de una consulta de forma taxonómica, permitiendo al usuario filtrar inmediatamente los documentos recuperados, consultando sólo aquellos que se han agrupado bajo la categoría/s que satisface la necesidad de información del usuario, e ignorando las restantes. Un claro exponente en esta materia es el motor de agrupamiento Vivísimo (http://vivisimo.com). Vivísimo no es en sí mismo un motor de búsqueda, sino un metabuscador u organizador de los resultados obtenidos por otros motores de búsqueda web. Este tipo de herramientas agrupan u organizan automáticamente los resultados de una consulta en categorías que son seleccionadas a partir de las palabras y frases contenidas en los mismos documentos recuperados. Además refinan los resultados de la búsqueda y los agrupan en categorías casi instantáneamente.
Actividad: con el objeto de que se familiarice con una de las nuevas iniciativas que están desarrollando algunos buscadores, acuda al metabuscador Vivísimo (http://vivisimo.com), realice en él de nuevo las tres consultas que ha realizado en el resto de buscadores. Preste especial atención a los resultados que obtenga cuando realice la consulta utilizando el término "jaguar". ¿En general que le ha parecido este buscador? ¿En el caso concreto de la última consulta (jaguar) qué opina de la solución que ofrece esta herramienta para acabar con la ambigüedad y simplificar el acceso a la información?
5. Conclusiones
En esta unidad se ha estudiado qué es un motor de búsqueda y cómo funciona. Además, se han analizando y caracterizando algunas de las experiencias más exitosas existentes en el mercado, de las cuales Google es el más claro exponente y modelo a seguir por sus competidores. Así mismo, se han indicado las líneas de investigación iniciadas por las compañías que desarrollan estas herramientas, y que ven la necesidad la necesidad de introducir mejoras en estas herramientas que permitan aumentar la relevancia de sus resultados sin reducir su sencillez de uso. Con todo ello se ha pretendido dotar al alumno de un conocimiento de base que le permita ir profundizando en el estudio de cuestiones más especializadas relacionadas con los buscadores que se estudiarán en las unidades posteriores.
6. Bibliografia
Todo acerca de Google:
http://www.google.es/intl/es/about.html
Información sobre Yahoo! España:
http://es.docs.yahoo.com/companysite/
Descubre Windows Live:
http://www.vivelive.com/descubre/
Acerca de Ask.com España:
http://about.es.ask.com/es/docs/about/sitefeatures.shtml