CÓMO OBTENER DATOS EN LA INTERNET PROFUNDA: UNA BREVE
GUÍA DE RECURSOS PARA CREAR TU REPOSITORIO DE DATOS
¿Estas
buscando datos relacionados con algún tema especifico?¿ no sabes por donde
empezar a buscar o ni siquiera si estos datos existen en Internet? ¿Alguna vez
te has preguntado donde podrías encontrar los datos que necesitas? Tu respuesta
a estas preguntas esta probablemente en extraer los datos en la
Internet profunda.
Esta respuesta
probablemente no te solucione nada porque lo que necesitas es saber por donde
empezar.
Por eso, en
esta entrada te mostraré como encontrar los datos que necesitas echando mano de
la Internet profunda o Deep Web.
La Internet profunda como fuente datos
Se estima que
la Internet profunda es entre 400 y 500 veces más
grande que la web convencional, aquella indexada por los buscadores.
Esto
convierte a la Internet profunda en una autentica mina de datos por explotar.
El problema
esta en que para obtener los datos en la Internet profunda debemos:
1.
Identificar Yacimientos de datos útiles para nuestra organización
2.
Emplear las herramientas necesarias para minar los datos
3.
Procesar los datos e información extraídos de las fuentes de información de
la web profunda
Exactamente
igual hacen en la industria minera para extraer el mineral valioso de un
yacimiento. Primero localizan una veta, después aplican las herramientas de
extracción y tercero se procesa el mineral, separando los desechos de lo útil.
Y esto como
comprenderás no es fácil.
Consiguiendo los datos en la Internet profunda: Data Scraping
Si eres lo
suficiente afortunado de tener claro cuales son tus fuentes de información para
extraer los datos en la Internet profunda entonces es probable que te enfrentes
al problema de conseguir extraer los datos sin recurrir al tedioso
corta-pega.
Entre otras
cosas, esta técnica manual puede ser útil de forma puntual,
pero si necesitas extraer los datos de una forma recurrente y tienes 50 fuentes
que revisar todos los días, lo cual es más que probable e incluso me este
quedando corto, es posible que nunca acabes el proceso.
Además,
estaríamos perdiendo un tiempo valioso para identificar nuevas fuentes de
información en la web profunda y aumentar la capacidad de analizar los datos en
la Internet profunda.
·
Screen scraping: es una técnica de
programación que consiste en extraer de una pagina web, usando ingeniería
inversa y alguna herramienta, los datos que nos interesan.
·
Web scraping: sirve para extraer datos e
información concretos de una pagina web, generalmente bases de datos dinámicas
no indexadas por buscadores, mediante programas de software que simulan la
navegación humana.
·
Report mining: es el proceso de extraer datos útiles de informes desestructurados
como por ejemplo un PDF para pasarlos a un archivo CSV y poder
analizarlos. Mientras que las dos técnicas anteriores implican
trabajar con datos dinámicos el report mining supone extraer datos de formatos
de lectura humana como textos, HTML y PDF
Lo cierto es
que estas técnicas pueden aplicarse sin tener conocimientos previos de
programación gracias a aplicaciones o herramientas
como: Mozenda, Screen-scrapers, ScraperWiki, Firebug
o Ruby
La ventaja de
estas técnicas de scraping es que son casi aplicables a cualquier tipo de web
incluidas las páginas web de la Internet superficial.
Sin embargo
si se va a hacer uso intensivo de estas técnicas para obtener los datos en la
Internet profunda, lo mejor es contar con especialistas, lo que te permitirá
ahorrarte: tiempo, dinero y algún disgusto.
Y es que
existen algunas limitaciones reales a estas técnicas tales como:
·
Páginas con un código HTML mal formateado
·
Las páginas web cerradas que requieren una autentificación por usuario y
contraseña o un código Captcha
·
Sistemas de protección contra accesos masivos etc…
Esto complica
la aplicación las técnicas de scraping para la extracción de datos en la
Internet profunda que pueden requerir de elementos de programación más
avanzados.
Relación de recursos para obtener datos en la Internet profunda
Si no tienes
claro de donde obtener los datos en la Internet profunda que pueden ser de
utilidad para ti, no te quedara más remedio que localizar las fuentes de tu
interés.
En este caso
te recomiendo dar los siguientes pasos:
Paso # -1: Hojea los dataset de páginas web y servicios de la web profunda:
En los
últimos años gracias a la corriente del open data (datos abiertos) multitud de
organismos e instituciones se han volcado en la publicación y creación de
sitios, portales y Hubs de datos. Este es un buen lugar para empezar a buscar
lo que necesitas:
·
Datacatalog: es un indice global de todos
los sitios gubernamentales de open data que existen actualmente el mundo
·
Datahub: un recurso de la Open Knowledge
Fundation donde se agregan dataset listos para ser utilizados incluso por
software
·
Trading economics, World Bank y Naciones unidas: contienen datos de indicadores económicos de alta calidad y de años
atrás.
Paso # -2: Emplea y pregunta en los foros:
Para el caso
que nos ocupa de los datos en la Internet profunda lo mejor es emplear
directamente estos dos recursos:
·
Quora: este enlace va directo a la
pregunta dónde encontrar grandes dataset abiertos al público. Donde encontrarás
cientos sino miles de fuentes donde encontrar datos
·
Get the data: un foro especializado en datos
abiertos donde podrás preguntar (en ingles) donde encontrar los datos que
buscas
Paso # -3: Recursos de la Open Knowledge Fundation:
OKF es una
organización internacional dedicada a difundir el conocimiento que dispone de
varias iniciativas donde los datos juegan un papel principal:
Paso # -4: Utiliza un buscador de datos estadísticos:
Localizar
datos en la Internet profunda se ha simplificado en parte gracias a ZANRAN.
Conclusiones sobre la extracción de datos en la Internet profunda
Como hemos
dicho anteriormente en esta entrada la extracción de datos en la Internet
profunda es similar a la actividad minera.
1. Identificar los yacimiento de
datos o fuentes de información de donde extraer datos
2. Emplear las herramientas
necesarias para extraer los datos: Data Scraping
3. Limpiar, procesar y preparar los
datos para el análisis.
El tercer
paso apenas lo hemos tratado pero viene implícito en el objetivo del Data
Scraping que no es otro que recuperar los datos en un formato que pueda ser
leído por una máquina, para después permitirnos hacer el análisis.
Un ejemplo
sería recuperar los datos de un archivo PDF para pasarlos a un CSV que puede
ser analizado por un Excel.
De esta forma
conseguimos apalancar nuestros esfuerzos en la web profunda.
Mi selección
de artículos para ti
No hay comentarios:
Publicar un comentario