Internet
profunda: una guía para principiantes de la web que no ves
¿Qué es eso de la Internet profunda o Internet invisible?
¿Se trata de una especie de triangulo de las bermudas donde solo pueden entrar
y salir unos pocos elegidos o es una especie de mito como el de la Atlántida?
La verdad es mucho más
sencilla y simple. La Internet profunda es aquella que simplemente no está indexada
por los motores de búsqueda o directorios. Es decir son páginas o mejor dicho
repositorios de información, generalmente bases de datos dinámicas, cuyo
contenido no puede ser revisado por los buscadores y por lo tanto incluido en
sus resultados de búsqueda.
Al contrario que otras
páginas web, estas bases de datos no son accesibles porque necesitan un usuario
o contraseña para acceder a ellas o bien son páginas dinámicas, es decir solo
sirven información y resultados cuando se rellenan una serie de variables y en
ese momento se crea la tabla de datos y no antes.
Por lo tanto no son
accesibles a un buscador corriente.
Para
simplificarlo quédate con esta idea:
La Internet profunda es la
que está compuesta por toda la información y bases de datos a las que los
motores de búsqueda y directorios no tienen acceso directo.
De hecho es más que
probable que ya la estés usando o la hayas usado sin darte cuenta.
¿Cual es el tamaño de la Internet profunda?
Nadie sabe cuál es el
tamaño exacto de la Internet profunda o web invisible. Según un artículo de
wikipedia sobre Deep Web:
En el año 2000 se estimaba3 que el tamaño
del Internet invisible era de 7.500 Terabytes de datos en unos
550.000 millones de documentos.4 Para comparar se
estima que en aquella época la Internet superficial ocupaba
167 Terabytes y el contenido de la Biblioteca del Congreso de Estados Unidos tenía unos 3.000
Terabytes que no eran accesibles por los motores de búsqueda.
Estimaciones basadas en
la extrapolación de
un estudio de la Universidad de California en Berkeley especula que
actualmente el Internet Profundo debe tener unos 91.000
TeraBytes.5
A decir verdad el tamaño
poco importa. La idea principal es tener claro que aproximadamente el 95% de
toda la información que existe en Internet está sin indexar por ningún
buscador.
¡Vaya
eso deja un gran espacio de información por ahí fuera del que nos podemos
aprovechar! ¿No crees?
La pregunta es ¿como? Bueno
ahí es donde entran los sistemas de inteligencia competitiva especializados en
cosechar este tipo de información en la Internet profunda pero esto ya es otra
historia.
¿Por qué es importante la Internet profunda?
Bueno si lo piensas, la
idea de aferrarnos solo a las búsquedas de Google es muy atractiva. Que digo
¡es más que atractiva!
Sería perfecto poder
preguntarle cualquier cosa a Google y que este me escupiera los resultados que
necesito.
Sin embargo, si
consideramos que Google y los demás buscadores se rigen por algoritmos y estos
no pueden ser perfectos, además del hecho de que existen bases de datos y
páginas dinámicas, pues nos encontramos con la limitación de que una sola
herramienta no puede indexar toda la información. Simplemente es imposible.
Así
pues, podemos estar seguros de que existe mucha más información de la que éramos
conscientes al principio.
De esta forma para
localizar determinada información de calidad necesitamos adentrarnos en la web
invisible y sacarle partido.
La buena noticia de
Todo esto es que no todo el mundo accede a la
Internet invisible y si sabemos cómo, podemos aprovecharnos al obtener mejores
datos e informaciones que nuestros competidores. Así de simple.
¿Por dónde empezar…? Algunos recursos de la Internet
profunda
Afortunadamente para todos,
hay otras personas que se han hecho la misma pregunta que nosotros y nos han
dejado una serie de entradas para la web profunda que podemos aprovechar:
Recursos científicos de la Internet profunda o
Internet invisible
·
La web del conocimiento: es una de las mayores bases de datos de citas del
mundo con más de 54 millones de registros
·
Pubmed: es el motor de búsqueda de medline. Contiene mas de
22 millones de documentos de investigación en biomedicina
·
Latipat: Bajo la plataforma de
espacenet agrega resultados de patentes de países de Latinoamérica, España y
Portugal
Recursos estadísticos de la Internet profunda o
Internet invisible
Recursos sobre datos financieros de la Internet
profunda o Internet invisible
Recursos de comercio internacional de la Internet
profunda o Internet invisible
·
Market access database: datos sobre tarifas
arancelarias en los distintos países de destino a las exportaciones
Recursos sobre legislación de la Internet profunda o
Internet invisible
·
Eurolex: incluye toda la información legal y disposiciones
sobre la legislación y tratados europeos
·
FDA: es la
agencia de alimentación de EEUU aquí puedes encontrar todas las regulaciones
acerca de pesticidas, conservantes y aditivos autorizados.
Como ves muchos de estos
recursos son sobradamente conocidos y no están escondidos en ninguna parte.
Lo que ocurre es que
contenido no está recogido por los buscadores.
Por supuesto estos son solo
unos pocos ejemplos y no llegan ni a una minúscula parte de lo que hay por ahí
fuera. De hecho siempre aparecen nuevas herramientas o directorios de acceso a la web
profunda que tardan en llegar
al dominio público.
Otros recursos de la web invisible
Aquí deberíamos hablar de
varias herramientas como:
·
Complete
planet: Una herramienta que lleva ya muchos años
considerándose una de las puertas de acceso principal a la Internet profunda.
Este es un directorio con más de 70.000 bases de datos y recursos
·
Infomine: un recurso de la universidad de california que
cuenta con más de 100.000 enlaces a otras bases de datos
·
Scirus: es un meta buscador científico especializado en
institutos y universidades de investigación
Es justo señalar que gran
parte de los recursos auditados de la web profunda provienen de bibliotecas y
centros de investigación universitarios y que por lo tanto la información es de
gran calidad y valor para la comunidad científica y de investigación.
Aunque también, como hemos
visto, podemos encontrar recursos valiosos para la empresa. A parte de estos
tres recursos puedes echar un vistazo a esta breve recopilación de Ernesto Marrero de
puertas de entrada a la Internet profunda.
También
te recomiendo que utilices OJOSE para lanzar una
búsqueda simultanea en varios de estos servicios. Es muy práctico.
Como aprovechar la Internet profunda
Lo cierto es que eso no es
fácil y depende de encontrar los recursos validos para ti o tu negocio.
Lo que sí puedo asegurar es
que cuando identifiques estos es muy importante tener en cuenta la frecuencia
de uso que hacemos de estos pozos de información.
Si por ejemplo, hemos dado
con uno de ellos y lo usamos recurrentemente con las mismas búsquedas o muy
parecidas lo mejor es contar con un sistema que recupere de forma automática
esta información en base a repetir estas búsquedas de forma automática.
Esto es lo que hacen los
sistemas de inteligencia competitiva. Actúan como un buscador específico de uno
o varios de estos directorios de la Internet profunda cosechando la información
que se le ha indicado. Sería como programar un buscador que durante 24 horas
repite las miles de búsquedas que se le han indicado.
Quieres saber más sobre la Internet profunda
Ciertamente esto no es todo
acerca de a la web o Internet profunda. Hay muchísimo más. Los enlaces que he
presentado en este artículo apenas son la punta del iceberg de la web
invisible.
Si quieres continuar
comprendiendo mejor como funciona te dejo un enlace a este libro
blanco sobre la web profunda. Esta
algo desactualizado pero te servirá para comprender mejor esta parte de la web.
Además hay que mencionar
que la web actual tiene varios niveles y que incluso parte de esta web profunda
o Internet profunda no es accesible con navegadores convencionales. Ahí tenemos
que utilizar TOR pero eso lo dejamos para otra ocasión.
¿Qué
te ha parecido esta entrada? ¿Conoces algún recurso de la web profunda que
quieras compartir?
Mi selección de artículos para ti
No hay comentarios:
Publicar un comentario