La World Wide Web o simplemente web como se denomina, tiene
su origen en el año 1989 en los laboratorios Europeos de Fisica de Partículas,
en Suiza, por tanto, la web no fue un invento americano, sino europeo.
El padre de la web fue Tim Bernes-Lee quien en 1990 completó
el primer servidor web y el primer cliente, para el año siguiente publicar el
primer borrador de las especificaciones del HTML y del protocolo HTTP.
La web
superficial o visible
Comprende todos aquellos sitios cuya información puede ser
indexada por los robots de los buscadores convencionales y recuperada asi en su
totalidad mediante una consulta a sus formularios de búsquedas.
Características de la
Web superficial:
· * Su información no está contenida en bases de
datos
· * La información es de libre acceso.
· * Para acceder a la información no requiere de la
realización de un proceso.
Está
formada por páginas web estáticas, es decir, páginas o archivos con una URL
fija y accesibles desde otro enlace, este tipo de red es de los sitios públicos.
Los motores de búsqueda
tradicionales (Google, Yahoo, etc.) sólo ofrecen acceso a una pequeña parte de
lo que existe online, lo que se ha comenzado a llamar la web superficial o
visible. Lo que resta, la Web profunda, es un amplísimo banco de información
ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y
contenido de sitios que demandan un login (aunque sean gratuitos), entre otros
tipos de formas de almacenamiento de contenido que no aparecen entre los
resultados de una búsqueda convencional.
La Web
Invisible o Profunda
El término “web invisible” fue utilizado por primera vez por
la Dra. Jill Ellsworth para denominar la información que resultaba “invisible”
para las maquinarias de búsqueda convencionales en la web (Ellsworth, 1995).
También se la denomina “web profunda” (deep web), por oposición a la “web
superficial” (surface web) cuya información puede recuperarse con los
buscadores de Internet (Bergman, 2000).
La Web profunda: Es una gran masa de datos e información
accesible a pocos, y en muchos casos pagada, que está organizada en:
· * Bases de datos de empresas, organismos,
instituciones
· * Sistemas de apoyo de gestión
· * Catálogos de productos
· * Sistemas de servicios
· * Información comercial, técnica y financiera
· * Bases de datos especializadas en temáticas
particulares: médicas, negocios, espaciales
·
Bibliotecas virtuales de universidades y centros
de estudios.
Para acceder a esta información es necesario aprender a
manejar cada una de estas bases de información, con una estrategia compleja de
búsqueda usando operadores booleanos. Cuando navegamos la Web pública nos
hallamos en la superficie. Si se tiene la habilidad técnica y el dinero -se
paga por acceder- se puede pescar información en la Web profunda. Esta es la
regla de la primera Internet.
Caracterización de la
web invisible o profunda:
Sherman y Price (2001a) identifican cuatro tipos de
contenidos invisibles en la web:
La web opaca (the opaque web),
La web privada (the private web)
La web propietaria (the proprietary web), y;
La web realmente invisible (the truly invisible web).
La web opaca: Se
compone de archivos que podrían estar incluidos en los índices de los motores
de búsqueda, pero no lo están por alguna de estas razones:
• Extensión de la indización: por economía, no todas las
páginas de un sitio son indizadas en los buscadores.
• Frecuencia de la indización: los motores de búsqueda no
tienen la capacidad de indizar todas las páginas existentes; diariamente se
añaden, modifican o desaparecen muchas y la indización no se realiza al mismo
ritmo.
• Número máximo de resultados visibles: aunque los motores
de búsqueda arrojan a veces un gran número de resultados de búsqueda,
generalmente limitan el número de documentos que se muestran (entre 200 y 1000
documentos).
• URL’s desconectados: las generaciones más recientes de
buscadores, como Google, presentan los documentos por relevancia basada en el
número de veces que aparecen referenciados o ligados en otros. Si un documento
no tiene una liga en otro documento será imposible que la página sea
descubierta, pues no habrá sido indizada. La web privada Consiste en las
páginas web que podrían estar indizadas en los motores de búsqueda pero son
excluidas deliberadamente por alguna de estas causas:
• Las páginas están protegidas por contraseñas (passwords).
• Contienen un archivo “robots.txt” para evitar ser
indizadas.
• Contienen un campo “noindex” para evitar que el buscador
indice la parte correspondiente al cuerpo de la página.
La web propietaria:
Incluye aquellas páginas en las que es necesario registrarse para tener acceso
al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la
web profunda contiene información de acceso público y gratuito (Turner, 2003).
La web realmente invisible se compone de páginas que no
pueden ser indizadas por limitaciones técnicas de los buscadores, como las
siguientes:
• Páginas web que incluyen formatos como PDF, PostScript,
Flash, Shockwave, programas ejecutables y archivos comprimidos.
• Páginas generadas dinámicamente, es decir, que se generan
a partir de datos que introduce el usuario.
• Información almacenada en bases de datos relacionales, que
no puede ser extraída a menos que se realice una petición específica. Otra
dificultad consiste en la variable estructura y diseño de las bases de datos,
así como en los diferentes procedimientos de búsqueda.