viernes, 26 de junio de 2015

La Web superficial y la Web profunda

La World Wide Web o simplemente web como se denomina, tiene su origen en el año 1989 en los laboratorios Europeos de Fisica de Partículas, en Suiza, por tanto, la web no fue un invento americano, sino europeo.

El padre de la web fue Tim Bernes-Lee quien en 1990 completó el primer servidor web y el primer cliente, para el año siguiente publicar el primer borrador de las especificaciones del HTML y del protocolo HTTP.

La web superficial o visible

Comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada asi en su totalidad mediante una consulta a sus formularios de búsquedas.

Características de la Web superficial:

·     *  Su información no está contenida en bases de datos
·     *   La información es de libre acceso.
·     *   Para acceder a la información no requiere de la realización de un proceso.

Está formada por páginas web estáticas, es decir, páginas o archivos con una URL fija y accesibles desde otro enlace, este tipo de red es de los sitios públicos. 

Los motores de búsqueda tradicionales (Google, Yahoo, etc.) sólo ofrecen acceso a una pequeña parte de lo que existe online, lo que se ha comenzado a llamar la web superficial o visible. Lo que resta, la Web profunda, es un amplísimo banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sean gratuitos), entre otros tipos de formas de almacenamiento de contenido que no aparecen entre los resultados de una búsqueda convencional.

La Web Invisible o Profunda

El término “web invisible” fue utilizado por primera vez por la Dra. Jill Ellsworth para denominar la información que resultaba “invisible” para las maquinarias de búsqueda convencionales en la web (Ellsworth, 1995). También se la denomina “web profunda” (deep web), por oposición a la “web superficial” (surface web) cuya información puede recuperarse con los buscadores de Internet (Bergman, 2000).

La Web profunda:  Es una gran masa de datos e información accesible a pocos, y en muchos casos pagada, que está organizada en:

·   *     Bases de datos de empresas, organismos, instituciones
·   *     Sistemas de apoyo de gestión
·   *     Catálogos de productos
·   *     Sistemas de servicios
·   *     Información comercial, técnica y financiera
·   *     Bases de datos especializadas en temáticas particulares: médicas, negocios, espaciales
·         Bibliotecas virtuales de universidades y centros de estudios.

Para acceder a esta información es necesario aprender a manejar cada una de estas bases de información, con una estrategia compleja de búsqueda usando operadores booleanos. Cuando navegamos la Web pública nos hallamos en la superficie. Si se tiene la habilidad técnica y el dinero -se paga por acceder- se puede pescar información en la Web profunda. Esta es la regla de la primera Internet.

Caracterización de la web invisible o profunda:

Sherman y Price (2001a) identifican cuatro tipos de contenidos invisibles en la web:

La web opaca (the opaque web),
La web privada (the private web)
La web propietaria (the proprietary web), y;
La web realmente invisible (the truly invisible web).

La web opaca:   Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna de estas razones:

• Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores.

• Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.

• Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan el número de documentos que se muestran (entre 200 y 1000 documentos).

• URL’s desconectados: las generaciones más recientes de buscadores, como Google, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados o ligados en otros. Si un documento no tiene una liga en otro documento será imposible que la página sea descubierta, pues no habrá sido indizada. La web privada Consiste en las páginas web que podrían estar indizadas en los motores de búsqueda pero son excluidas deliberadamente por alguna de estas causas:

• Las páginas están protegidas por contraseñas (passwords).
• Contienen un archivo “robots.txt” para evitar ser indizadas.
• Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.

La web propietaria: Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la web profunda contiene información de acceso público y gratuito (Turner, 2003).

La web realmente invisible se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:

• Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
• Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
• Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica. Otra dificultad consiste en la variable estructura y diseño de las bases de datos, así como en los diferentes procedimientos de búsqueda.




No hay comentarios :

Publicar un comentario