Por Abhishek Ghosh 5 de febrero de 2024 9:25 am Actualizado el 5 de febrero de 2024AnuncioLa Deep Web se refiere a la parte de la World Wide Web que no se puede encontrar al realizar búsquedas a través de motores de búsqueda normales. A diferencia de la web profunda, las páginas web a las que se puede acceder a través de los motores de búsqueda se denominan web clara, web visible o web superficial. La Deep Web se compone en gran medida de bases de datos y sitios web sobre temas específicos. En resumen, se trata de contenidos que no son de libre acceso y/o contenidos que no están indexados por los buscadores o que no están destinados a ser indexados. Según los expertos, se distinguen cinco tipos de web invisible: Web opaca Web privada Web propietaria Web invisible Web verdadera web invisible Web opaca La web opaca es un sitio web que podría indexarse, pero que actualmente no lo está por razones de rendimiento técnico o de relación costo-beneficio (profundidad de búsqueda, frecuencia de visitas). Los motores de búsqueda no tienen en cuenta todos los niveles de directorio y subpáginas de un sitio web. Al rastrear páginas web, los rastreadores web controlan mediante enlaces a las siguientes páginas web. Los rastreadores web no pueden navegar por sí solos. Incluso puede perderse en estructuras de directorios complejas y luego tener dificultades para capturar páginas (buscar texto, imágenes, enlaces y otros datos relevantes para indexar) o regresar a la página de inicio. Por este motivo, los motores de búsqueda suelen considerar como máximo cinco o seis niveles de directorio. Los documentos extensos y, por lo tanto, relevantes se pueden encontrar en niveles jerárquicos inferiores y los motores de búsqueda no pueden encontrarlos debido a la profundidad limitada de la indexación. Además, hay formatos de archivos que solo se pueden capturar parcialmente (por ejemplo, archivos PDF, índices de Google únicamente). parte de un archivo PDF y hace que el contenido esté disponible como HTML). Además, las bases de datos constantemente actualizadas, como los datos de medición en línea, se ven afectadas. También se incluyen sitios web sin hipervínculos ni sistemas de navegación, sitios web desvinculados, URL ermitañas o “sitios huérfanos”. Web privada La web privada describe páginas web que podrían indexarse, pero que no lo están debido a las restricciones de acceso de los webmasters. Puede tratarse de sitios web en la intranet (sitios web internos), pero también de datos protegidos por contraseña (registro con nombre de usuario y contraseña), acceso solo para determinadas direcciones IP, protección contra la indexación por el Estándar de exclusión de robots (también conocido como robots.txt) o protección contra la indexación por los valores de metaetiqueta “noindex”, “nofollow” y “noimageindex” en el código fuente del sitio web. Web propietaria Web propietaria se refiere a sitios web que podrían indexarse, pero a los que solo se puede acceder después de aceptar un término de uso o ingresando una contraseña (gratuita o de pago). Por lo general, solo se puede acceder a dichos sitios web después de la identificación (bases de datos especializadas basadas en web, muros de pago). para medios en línea). Web invisible La web invisible incluye sitios web que técnicamente podrían indexarse, pero no lo están por razones comerciales o estratégicas, como bases de datos con un formulario web. Web verdaderamente invisible Web verdaderamente invisible se refiere a sitios web que (todavía) no pueden indexarse por razones técnicas. Estos pueden ser formatos de bases de datos que se crearon antes de la WWW (algunos hosts), documentos que no se pueden mostrar directamente en el navegador, formatos no estándar (por ejemplo, Flash), así como formatos de archivos que no se pueden capturar debido a su complejidad (gráficos). formatos). Además, existen datos comprimidos o páginas web que sólo pueden manejarse mediante la navegación del usuario, gráficos (mapas de imágenes) o scripts.
Source link
Deja una respuesta