Nota sobre la evaluación: de forma intercalada en el texto de este artículo encontrará el enunciado de diversas actividades. Para superar esta unidad didáctica deberá realizar estas actividades redactando un informe en el que se incluyan comentarios y, en caso que sea pertinente, una captura de pantalla de cada actividad para ilustrar su realización. Para entregar este informe deberá crear un solo documento para todos las actividades de esta unidad didáctica en formato OpenOffice o Word y de un máximo de 500 Kb. A continuación podrá usar la página de entrega y notificación perteneciente a esta unidad didáctica. La realización de forma satisfactoria de este ejercicio implicará la obtención de 0,75 créditos.
1. Introducción
La importancia de los buscadores como forma de acceso a la información es tal que toda aquella información que no son capaces de encontrar y ofrecer en sus listados será muy difícil (o incluso imposible) de localizar por quienes desconozcan la URL del sitio web en concreto. De la importancia de ser encontrado a partir de las consultas en los buscadores se deriva el nombre de Web Invisible (o Deep Web) aplicado a la parte de la web que éstos no pueden ofrecer en sus resultados.

Esquema de Ricardo Baeza representando los tipos de sitios web
En algunas ocasiones el hecho de que una página web no pueda ser encontrada o rastreada por la araña de un buscador es voluntad de sus responsables. O bien porque se trata de una página en pruebas, o bien porque contiene información interna que de poco puede servir a otras personas, o por otros diversos motivos, su webmaster pone los medios para que la página no pueda ser rastreada e indexada por los spiders.
Otras veces, en cambio, es el desconocimiento de quienes desarrollan los sitios web lo que lleva a no poder ser encontrados, o en ocasiones la ausencia de alternativas para poder hacerlo de otra forma en que sí puedan ser indexados.
A continuación explicamos las distintas formas en que una página web evitará ser indexada y las alternativas que deben adoptarse para que ser vista por los buscadores.
2. Cuando los buscadores no conocen la existencia de una página web
Evidentemente un buscador no podrá incluir entre sus resultados de búsqueda una página web de la que desconoce su existencia. La forma habitual que tienen los robots de los buscadores para llegar a las páginas web e indexarlas es por medio de links: el robot rastrea una página y encuentra un enlace a otra, y lo sigue. De esa manera pueden llegar a muchas páginas web, por medio de la navegación, bastante parecido a como lo hacemos las personas.
Para que un robot llegue a una página que no recibe enlaces de ninguna otra sólo caben dos posibilidades:
que la página en cuestión se encuentre alojada físicamente en un directorio que sí conocen los buscadores, por ejemplo, que la página web “azul.htm”, que no recibe ningún enlace, esté disponible en “ http://www.colores.com ”, que es una página sí conocida por los buscadores, de esta manera: “ http://www.colores.com/azul.htm ”. Si no hay restricciones indicadas para que los robots no revisen el directorio encontrarán la página “azul.htm”.

Formulario para solicitar el alta un sitio web en Google
El conocido modelo de la estructura web realizado por Baeza-Yates muestra gráficamente cómo hay páginas que no reciben enlaces desde otras (conjunto de páginas “in”) y páginas que además de no recibir enlaces tampoco enlazan a otras páginas (conjunto llamado “islands”):

Estructura de enlaces entre sitios Web, en
http://www.catedratelefonica.upf.es/webes/2005/Caracter_isticas_Sitios_Web.htmlActividad: Investigue cuántos enlaces han puesto otras páginas web a una página web que useted escoja. Para ello utilice el Explorador de sitios de Yahoo! disponible en: http://siteexplorer.search.yahoo.com/ e introduzca la URL que quiere investigar. La información la encontrará en la opción “Inlinks”, y con el formulario podrá escoger no contabilizar los enlaces que procedan de ese mismo sitio web (es decir, los links internos).
Dentro del conjunto de páginas web que no reciben enlaces podemos incluir aquellas que sí los reciben pero éstos no se han creado en (x)html sino en el lenguaje JavaScript. Los robots no pueden ejecutar la secuencia de JavaScript para poder seguir el link, por lo tanto es una puerta cerrada.
Otro caso muy habitual de páginas web invisibles a los robots son aquellas a las que se accede:

Los robots no podrán continuar rastreando al encontrar un formulario para rellenar, en este caso con un usuario y una contraseña
El motivo es simple: los robots no tienen la capacidad de teclear, por lo tanto siempre que sea necesario teclear algo antes de pulsar un botón, el robot no podrá continuar. Este es el caso de la mayoría de la intranets, a las que sólo las personas autorizadas pueden acceder, o el caso de los sitios web en los que las páginas se generan de forma dinámica a partir de una consulta previa. Por ejemplo, si queremos buscar un libro en una librería online deberemos teclear el autor o el título u otros datos, y el resultado será una lista de libros que responden a la consulta. Esta página con el listado de libros no es una página creada previamente sino que se genera de forma dinámica, en el momento, en función de la consulta realizada.
En los últimos años estamos viendo que cada vez es mayor el número de sitios web que utilizan tecnología dinámica (ASP o PHP) para presentar los contenidos, previamente albergados en una base de datos. Esta forma de trabajar no debe ser en cambio un obstáculo para que los robots rastreen las páginas. La fórmula para permitir al robot entrar en la información dinámica es crear páginas estáticas desde las que haya enlaces a los registros de la base de datos, individualmente o bien agrupados. Un ejemplo: si tenemos una web de alquiler de pisos y cada piso es un registro de la base de datos, podremos poner en una página estática un link a cada registro de cada piso, o bien poner un enlace a la página que se crea dinámicamente cuando se hace una consulta determinada, como sería la acotación de “ciudad=barcelona”.
Un ejemplo claro sobre cómo hacer de una web dinámica una puerta abierta a los buscadores es Loquo.es. Este sitio permite efectuar una consulta en el buscador interno, algo sencillo para las personas pero imposible para los robots. Al mismo tiempo ofrece enlaces a todas las categorías temáticas de manera que las personas puedan navegar el sitio web y también los robots:

Acceso a las páginas web de Loquo mediante buscador y mediante navegación

La única posibilidad para que un robot continue navegando en esta página es ir a ver los dos índices, pero al intentarlo se encuentra de nuevo con otro fomulario y ahí debe desistir su intento
Actividad: Revise algunos sitios web tradicionalmente accesibles mediante formularios de consulta (catálogos de bibliotecas o de librerías, búsqueda de anuncios clasificados, búsqueda de vuelos, etc.) y compruebe si es posible para un robot navegar hasta los contenidos finales sin quedarse parado en los formularios.
En los últimos años los grandes buscadores están intentando crear fórmulas para poder entrar a indexar la web invisible. Por ejemplo, Yahoo! Suscriptions funciona por medio de acuerdos con distintas empresas de publicación de contenidos (Factiva, LexisNexis, IEEE; Wll Street Journal...) que le permiten rastrear sus contenidos. Los usuarios suscritos a los servicios de estas empresas podrán buscar desde Yahoo! Suscriptions y encontrarán información que de otro modo no podrían tener desde un buscador, puesto que se trata de información accesible sólo mediante suscripción. Más información en: http://search.yahoo.com/subscriptions/learnmore .
Por su parte, Google está haciendo acuerdos con editoriales y bibliotecas para poder indexar los contenidos de sus bases de datos. Más información en:
http://scholar.google.es/intl/es/scholar/publishers.html y http://scholar.google.es/intl/es/scholar/libraries.html
3. Cuando los buscadores llegan a una página pero no pueden indexarla
Los problemas con los que se encuentran los robots que rastrean la web no acaban aquí. Hay veces en los que los robots llegan a las páginas y en cambio no las pueden rastrear
porque no las entienden o porque se les pide que no lo hagan. Veamos estos dos casos.
El contenido que se sube a un servidor web y que entendemos como “página web” suele ser un fichero html o xhtml al que se le vinculan imágenes y una hoja de estilos. Eso es el caso que primero se nos viene a la cabeza. Pero en cambio, cuando observamos los resultados de los buscadores encontramos que también nos da documentos que tienen una URL y no son páginas web sino que son ficheros en .pdf, doc, .xls, ppt., etc.

Por tanto, a efectos de web invisible consideraremos “información” todos los ficheros que estén en servidores web y que no puedan ser indexados por los buscadores. Hoy en día estos formatos que comentábamos no suponen un problema pues los robots ya son capaces de rastrear e indexar estos ficheros y muchos más (hace unos años no era así). En cambio deberemos tener en cuenta que los documentos que estén en otros formatos no los podrán leer, por ejemplo ficheros .zip o .rar, o cualquier otro que no esté en las listas del ejemplo que veíamos en la figura anterior.
Actividad: Realice una consulta sobre el tema que desee desde la opción de búsqueda avanzada en Google o en Yahoo! y obtenga una lista de resultados en formato PDF.
El otro caso que decíamos al inicio de este apartado es el de páginas que piden expresamente a los robots no ser indexadas. Los motivos por el que el webmaster puede pedir a los robots (a todos o a alguno en particular) que no rastreen la página son variados: porque la página está en desarrollo y no quieren que los buscadores ofrezcan información no definitiva en sus resultados, porque la página contiene información privada como por ejemplo nombres y números de teléfono, o por otros motivos particulares que puedan surgir.
La manera de indicarlo a los robots es mediante un fichero que deberá llamarse “robots.txt” y que se alojará en la raiz del dominio o subdominio sobre el que se quiere hacer esta indicación:
Entre las distintas opciones que pueden configurarse en este fichero el permitir o no permitir a los buscadores que rastreen las páginas es sólo una, también puede limitarse el número de veces que la visitan para regular la intensidad del tráfico en la página, o delimitar qué paginas en concreto son las que se quieren cerrar a los robots. De esta forma, se puede cerrar todo un sitio a todos los robots, y se indicaría así:
User-agent: *
Disallow: /
O bien se puede cerrar alguna página en particular a todos los buscadores o a alguno de ellos en particular. Los robots de los buscadores más importantes son Googlebot (de Google), Msnbot (de Msn) y Slurp (de Yahoo!). Si quisiéramos prohibir el paso a Googlebot a una página concreta haríamos así:
User-agent: googlebot
Disallow: telefonos.htm
Actividad: Cree un fichero robots.txt para un sitio web real o inventado en el que le indique que el directorio “/imagenes” del supuesto sitio web no pueda ser indexado por ningún robot. Utilice alguna herramienta de generación automática de este fichero, existen muchas online de uso gratuito, por ejemplo:
http://www.cuwhois.com/robots-txt.php
http://herramientas-seo.promociondesitios.com/generador-robot-txt.php
4. Sitios de interés de la web invisible
No podemos obtener datos certeros, pero se calcula que la cantidad de información que no es accesible para los robots es mucho mayor que la que sí pueden encontrar, rastrear y ofrecer en sus índices. Según datos dados por el investigador Javed Mustafa de la universidad de California en el programa de radio “Science Friday” en la National Public Radio el 27 de julio de 2007, hay 91.000 terabytes frente a los 167 de la web “visible”.
Los buscadores por tanto podrán rastrear la página de inicio desde donde se consultan las bases de datos “invisibles”, pero no sus contenidos. La única forma que tenemos de llegar a estas herramientas es conocer su dirección, y evidentemente será imposible conocer muchas de ellas. Para facilitar la localización de bases de datos se han creado distintos directorios, destacamos uno realizado en España denominado InternetInvisible.com, un directorio temático de bases de datos y recursos de acceso gratuito de información invisible en Internet que comenzó en el año 1999. Cuenta con cerca de 3000 recursos descritos y clasificados temáticamente para facilitar su localización, la mayoría de ellos en español pero no necesariamente
.
Actividad: Pruebe el recurso Internetinvisible.com y localice bases de datos sobre un tema que le interese.
5. Conclusiones
En esta unidad hemos visto qué es la web invisible y qué tipos de información forman parte de ella. Básicamente:
Sitios web a los que se accede con autenticación
Páginas web creadas dinámicamente tras una consulta
Archivos en formatos no legibles por los robots como imágenes, sonidos, etc.
Páginas web con el archivo robots.txt donde el webmaster ha indicado que no quiere que se indexen
Los responsables de sitios web deben conocer bien si las páginas que gestionan están en alguno de estos casos, y si es así determinar si quieren ser invisibles o no a los robots de los buscadores. El desconocimiento de cómo funcionan los buscadores y dónde no pueden llegar puede resultar muy problemático, puesto que la mayoría de las visitas que reciben las páginas web proceden de consultas realizadas en los buscadores.
6. Bibliografía
AGUILLO, Isidro. Internet invisible: Los contenidos son la clave. CINDOC-CSIC, 2003. http://internetlab.cindoc.csic.es/cursos/Internet_Invisible2003.pdf (PPT 7 Mb).
BAEZA-YATES, Ricardo. "Excavando la Web". El profesional de la información, v 13, num. 1, enero-febrero 2004. http://www.dcc.uchile.cl/~rbaeza/inf/EPIexcavando.pdf
BERGMAN, Michael K. "The Deep Web: Surfacing Hidden Value" (BrightPlanet White Paper). http://www.brightplanet.com/images/stories/pdf/deepwebwhitepaper.pdf
LAMARCA, María Jesús. “La web invisible”: En: Hipertexto: El nuevo concepto de documento en la cultura de la imagen, http://www.hipertexto.info/documentos/web_invisib.htm
SALAZAR, Idoia. Las profundidades de Internet: Accede a información que los buscadores no encuentran y descubre el futuro inteligente de la red. Gijón, Trea, 2006.