Comienza Ya. Es Gratis
ó regístrate con tu dirección de correo electrónico
La Deep Web por Mind Map: La Deep Web

1. Tamaño

1.1. La internet profunda es un conjunto de sitios web y bases de datos que buscadores comunes no pueden encontrar ya que no están indexadas. El contenido que se puede hallar dentro de la internet profunda es muy amplio.

2. Denominación

2.1. La Web profunda se refiere a la colección de sitios o bases de datos que un buscador común, como Google, no puede o no quiere indexar. Es un lugar específico del internet que se distingue por el anonimato. Nada que se haga en esta zona puede ser asociado con la identidad de uno, a menos que uno lo desee.

2.2. Por otra parte, el término web invisible se dice que es inexacto porque:

2.2.1. Muchos usuarios asumen que la única forma de acceder a la web es consultando un buscador.

2.2.2. Alguna información puede ser encontrada más fácilmente que otra, pero esto no quiere decir que esté invisible.

2.2.3. La web contiene información de diversos tipos que es almacenada y recuperada en diferentes formas.

2.2.4. El contenido indexado por los buscadores de la web es almacenado también en bases de datos y disponible solamente a través de las peticiones o consultas del usuario.

2.2.5. Por tanto no es correcto decir que la información almacenada en bases de datos es invisible.

3. Métodos de profundización

3.1. Las arañas (web crawlers)

3.2. Tor

4. Origen

4.1. La principal causa de la existencia de la internet profunda es la imposibilidad de los motores de búsqueda (Google, Yahoo, Bing, etc.) de encontrar o indexar gran parte de la información existente en Internet.

5. Motivos

5.1. Web contextual

5.1.1. páginas cuyo contenido varía dependiendo del contexto (por ejemplo, la dirección IP del cliente, de las visitas anteriores, etc.).

5.2. Contenido dinámico

5.2.1. páginas dinámicas obtenidas como respuesta a parámetros, por ejemplo, datos enviados a través de un formulario.

5.3. Contenido de acceso restringido

5.3.1. páginas protegidas con contraseña, contenido protegido por un Captcha, etc.

5.4. Contenido No HTML

5.4.1. contenido textual en archivos multimedia, otras extensiones como exe, rar, zip, etc.

5.5. Software

5.5.1. Contenido oculto intencionadamente, que requiere un programa o protocolo específico para poder acceder (ejemplos: Tor, I2P, Freenet)

5.6. Páginas no enlazadas

5.6.1. páginas de cuya existencia no tienen referencia los buscadores; por ejemplo, páginas que no tienen enlaces desde otras páginas

6. Rastreando la internet profunda

6.1. El Protocolo del sitio (primero desarrollado e introducido por Google en 2005) y OAI son mecanismos que permiten a los motores de búsqueda y otras partes interesadas descubrir recursos de la internet profunda en los servidores web en particular.

6.1.1. La selección de valores de entrada, para que las entradas de búsqueda de texto acepten palabras clave

6.1.2. La identificación de los insumos que aceptan solo valores específicos (por ejemplo, fecha).

6.1.3. La selección de un pequeño número de combinaciones de entrada que generan URLs adecuadas para su inclusión en el índice de búsqueda Web