martes, 15 de marzo de 2016

La Web superficial y la Web profunda

Los buscadores tradicionales sólo ofrecen acceso a una pequeña parte de lo que existe online, a lo que se denomina la Web superficial o visible.
Comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de búsqueda.
Las características principales de los sitios de la Web visible son:
•    su información no está contenida en bases de datos
•    es de libre acceso
•    no requiere la realización de un proceso de registro para acceder
Mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.
Lo que resta, la Web profunda, es un amplísimo banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito) y entre otros tipos de contenido que no puede recuperarse con los mecanismos de búsqueda comunes.
Sherman y Price (2001) identifican cuatro tipos de contenidos invisibles en la Web:
§  La Web opaca:
Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna razón particular como:
– Extensión de la indización: no todas las páginas de un sitio son indizadas en los buscadores.
– Frecuencia de la indización: los motores de búsqueda
– Número máximo de resultados visibles
– URL’s desconectadas.
§  La Web privada:
Incluye aquellas páginas que podrían estar indexadas pero son excluidas en forma deliberada por:
– Estar protegidas con contraseñas.
– Contener un tipo de archivo especial para evitar la indexación.
– Contener un campo que evita que los buscadores indexe la parte que corresponde al cuerpo de la página.
§  La Web propietaria:
Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.
§  La Web realmente invisible:
Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como por ejemplo, aquellas que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.

La Web invisible no sólo es de mayor tamaño que la Web visible o superficial sino que crece a mayor velocidad.
Asimismo, mucha información disponible en la Web profunda, como la que se encuentra en bases de datos, tiene un alto valor potencial para el usuario.

Un alumno que realizó el curso antes que nosotros nos ha dejado la siguiente presentación:

No hay comentarios:

Publicar un comentario