viernes, 26 de junio de 2015

La Web superficial y la Web profunda

La World Wide Web o simplemente web como se denomina, tiene su origen en el año 1989 en los laboratorios Europeos de Fisica de Partículas, en Suiza, por tanto, la web no fue un invento americano, sino europeo.

El padre de la web fue Tim Bernes-Lee quien en 1990 completó el primer servidor web y el primer cliente, para el año siguiente publicar el primer borrador de las especificaciones del HTML y del protocolo HTTP.

La web superficial o visible

Comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada asi en su totalidad mediante una consulta a sus formularios de búsquedas.

Características de la Web superficial:

·     *  Su información no está contenida en bases de datos
·     *   La información es de libre acceso.
·     *   Para acceder a la información no requiere de la realización de un proceso.

Está formada por páginas web estáticas, es decir, páginas o archivos con una URL fija y accesibles desde otro enlace, este tipo de red es de los sitios públicos. 

Los motores de búsqueda tradicionales (Google, Yahoo, etc.) sólo ofrecen acceso a una pequeña parte de lo que existe online, lo que se ha comenzado a llamar la web superficial o visible. Lo que resta, la Web profunda, es un amplísimo banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sean gratuitos), entre otros tipos de formas de almacenamiento de contenido que no aparecen entre los resultados de una búsqueda convencional.

La Web Invisible o Profunda

El término “web invisible” fue utilizado por primera vez por la Dra. Jill Ellsworth para denominar la información que resultaba “invisible” para las maquinarias de búsqueda convencionales en la web (Ellsworth, 1995). También se la denomina “web profunda” (deep web), por oposición a la “web superficial” (surface web) cuya información puede recuperarse con los buscadores de Internet (Bergman, 2000).

La Web profunda:  Es una gran masa de datos e información accesible a pocos, y en muchos casos pagada, que está organizada en:

·   *     Bases de datos de empresas, organismos, instituciones
·   *     Sistemas de apoyo de gestión
·   *     Catálogos de productos
·   *     Sistemas de servicios
·   *     Información comercial, técnica y financiera
·   *     Bases de datos especializadas en temáticas particulares: médicas, negocios, espaciales
·         Bibliotecas virtuales de universidades y centros de estudios.

Para acceder a esta información es necesario aprender a manejar cada una de estas bases de información, con una estrategia compleja de búsqueda usando operadores booleanos. Cuando navegamos la Web pública nos hallamos en la superficie. Si se tiene la habilidad técnica y el dinero -se paga por acceder- se puede pescar información en la Web profunda. Esta es la regla de la primera Internet.

Caracterización de la web invisible o profunda:

Sherman y Price (2001a) identifican cuatro tipos de contenidos invisibles en la web:

La web opaca (the opaque web),
La web privada (the private web)
La web propietaria (the proprietary web), y;
La web realmente invisible (the truly invisible web).

La web opaca:   Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna de estas razones:

• Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores.

• Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.

• Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan el número de documentos que se muestran (entre 200 y 1000 documentos).

• URL’s desconectados: las generaciones más recientes de buscadores, como Google, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados o ligados en otros. Si un documento no tiene una liga en otro documento será imposible que la página sea descubierta, pues no habrá sido indizada. La web privada Consiste en las páginas web que podrían estar indizadas en los motores de búsqueda pero son excluidas deliberadamente por alguna de estas causas:

• Las páginas están protegidas por contraseñas (passwords).
• Contienen un archivo “robots.txt” para evitar ser indizadas.
• Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.

La web propietaria: Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la web profunda contiene información de acceso público y gratuito (Turner, 2003).

La web realmente invisible se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:

• Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
• Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
• Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica. Otra dificultad consiste en la variable estructura y diseño de las bases de datos, así como en los diferentes procedimientos de búsqueda.




viernes, 19 de junio de 2015

Busquedas: Avanzadas y Por palabras claves

Las búsquedas avanzadas permiten hacer combinaciones de tal forma que uno o más términos sean buscados en diferentes índices o partes del registro simultáneamente. También permiten excluir un término específico de la búsqueda o recuperar uno u otro de los términos ingresados. Cada índice representa un área del registro o ficha de título, aunque también puede buscar palabras generales en cualquier parte del registro. En todos los casos, los términos por los que se desea hacer la búsqueda avanzada se ingresarán en las áreas para buscar de cada índice.

lunes, 8 de junio de 2015

Herramientas de Búsqueda de Información en la web


El mundo digital ofrece gran cantidad de herramientas para la búsqueda de información, las más populares son:
  •        Buscadores
  •        Metabuscadores
  •        Directorios
  •        Guías; y,
  •        Software especializado.


Cada una de ellas funciona de una manera diferente y tiene su propio propósito y alcance. A continuación en la pantalla interactiva se ha recopilado información sobre éstas.

lunes, 1 de junio de 2015

INFOXICACIÓN

Infoxicar es intoxicar. La infoxicación o saturación de la información difícil de procesar, surge de la unión de las palabras información + intoxicación, este término fue introducido por primera vez por Alfons Cornella, fundador y presidente de Infonomía en el año 2000 o finales de 1999,  quien manifiesta que la  infoxicaciòn es recibir centenares de información cada dia, a la que no puedes dedicar tiempo, en otras palabras,  es la incapacidad de análisis eficiente de un flujo de información elevado.




La infoxicación genera en muchas ocasiones ansiedad y angustia en el usuario por no sentirse en condiciones de encontrar la información deseada.  “Todo este fenómeno de multiplicación de la cantidad de información que existe en el mundo se ha venido a llamar la ‘explosión de la información’, aunque más bien debería llamarse la ‘explosión de la desinformación’, indigerible y confundidora” (C. Romaní, H. Pardo, 2007, p.74).

Un reciente estudio de Harvard nos muestra que paradójicamente no estamos contentos. Nuestro trabajo puede llegar a ser menos productivo por la sobrecarga de información. La enorme cantidad de información que recibimos produce cada vez más interrupciones, pudiendo afectar negativamente no únicamente a nuestro bienestar personal, sino también a las decisiones que tomamos, a la innovación o a nuestra productividad. 

Para conseguir una mejora en nuestra productividad, se recomienda tener encuenta lo siguiente:

  • Tener formación en el manejo de Tic´s
  • Desarrollar habilidades en el área de Gestión de la Información
  • Racionalizar la información
  •  Aprender a Gestionar la información para convertirla en conocimiento
  • Manejar la bandeja de entrada de e-mail con opciones que permitan filtrados claves.
  • Limitar y seleccionar las fuentes que se consultan
  • Utilizar aplicaciones que permitan la clasificación de información a través de etiquetas.
  • Utilizar buscadores especializados para realizar una búsqueda profunda.



Bibliografía