Los buscadores
tradicionales sólo ofrecen acceso a una pequeña parte de lo que existe online,
a lo que se denomina la Web superficial o visible.
Comprende todos
aquellos sitios cuya información puede ser indexada por los robots de los
buscadores convencionales y recuperada casi en su totalidad mediante una
consulta a sus formularios de búsqueda.
Las
características principales de los sitios de la Web visible son:
•
su información no está contenida en bases de datos
•
es de libre acceso
•
no requiere la realización de un proceso de registro para acceder
Mayoritariamente
está formada por páginas Web estáticas, es decir páginas o archivos con una URL
fija y accesibles desde otro enlace.
Lo que resta,
la Web profunda, es un amplísimo banco de información
ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y
contenido de sitios que demandan un login (aunque sea gratuito) y entre otros
tipos de contenido que no puede recuperarse con los mecanismos de búsqueda
comunes.
Sherman y Price
(2001) identifican cuatro tipos de contenidos invisibles en la Web:
§
La Web opaca:
Se compone de
archivos que podrían estar incluidos en los índices de los motores de búsqueda,
pero no lo están por alguna razón particular como:
– Extensión de
la indización: no todas las páginas de un sitio son indizadas en los
buscadores.
– Frecuencia de
la indización: los motores de búsqueda
– Número máximo
de resultados visibles
– URL’s
desconectadas.
§
La Web privada:
Incluye
aquellas páginas que podrían estar indexadas pero son excluidas en forma
deliberada por:
– Estar
protegidas con contraseñas.
– Contener un
tipo de archivo especial para evitar la indexación.
– Contener un
campo que evita que los buscadores indexe la parte que corresponde al cuerpo de
la página.
§
La Web
propietaria:
Incluye
aquellas páginas en las que es necesario registrarse para tener acceso al
contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la
Web profunda contiene información de acceso público y gratuito.
§
La Web
realmente invisible:
Se compone de
páginas que no pueden ser indizadas por limitaciones técnicas de los
buscadores, como por ejemplo, aquellas que incluyen formatos como PDF,
PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
La Web
invisible no sólo es de mayor tamaño que la Web visible o superficial sino que
crece a mayor velocidad.
Asimismo, mucha
información disponible en la Web profunda, como la que se encuentra en bases de
datos, tiene un alto valor potencial para el usuario.
Un alumno que realizó el curso
antes que nosotros nos ha dejado la siguiente presentación:
No hay comentarios:
Publicar un comentario