COMENTARIO SOBRE WEB PROFUNDA Y WEB SUPERFICIAL

viernes, 26 de junio de 2015
Saludos a todos: 

En este ejercicio nos piden que comentemos que nos parece o que hemos aprendido sobre  la web superficial y web profunda.

Mi opinión es que me he quedado impresionado por los datos que revelan que solo un mínimo 5% de la información que digamos que utilizamos esta en lo que llaman web superficial y que es lo que solemos buscar en los buscadores: información básica, rutas, fotografías, viajes, ver videos en youtube, movernos en redes sociales como facebook, twitter, instagram, google+,... digamos que un poco lo normal.

Por lo tanto veo que es lo que más usamos a nivel casero.

Adentrándonos un poco en lo que llaman la web profunda, aquí empezamos a bucear, y al principio están paginas que  la mayoría hemos utilizado alguna vez, como son las páginas de descargas , torrents,  bases de datos, paginas con archivos pdf o Word para descargar, contenido multimedia, web con contraseñas ( servicios bancarios, entradas a bibliotecas o revistas virtuales, etc.) paginas dinámicas …

Luego ya viene lo que se llama internet oscura o deepweb, que lo que contiene es material digamos no de uso común entre la mayoría de los mortales, como son servidores inaccesibles, zonas restringidas de seguridad nacional o militar, cortafuegos, servidores de utilización ilegal utilizados para pornografía infantil, venta de armas y drogas y objetos robados, y un largo etc.…




Buscando por la red, ya que para eso es este curso, he encontrado un par de artículos que explican bastante bien, como conocer un poco mejor esto de la web profunda y oscura.
También tienen al final enlaces de otros artículos, que me parecen bastante interesantes.
Un saludo.


Read more ...

Internet profunda: una guía para principiantes de la web que no ves

viernes, 26 de junio de 2015
Internet profunda: una guía para principiantes de la web que no ves


¿Qué es eso de la Internet profunda o Internet invisible? ¿Se trata de una especie de triangulo de las bermudas donde solo pueden entrar y salir unos pocos elegidos o es una especie de mito como el de la Atlántida?

La verdad es mucho más sencilla y simple. La Internet profunda es aquella que simplemente no está indexada por los motores de búsqueda o directorios. Es decir son páginas o mejor dicho repositorios de información, generalmente bases de datos dinámicas, cuyo contenido no puede ser revisado por los buscadores y por lo tanto incluido en sus resultados de búsqueda.

Al contrario que otras páginas web, estas bases de datos no son accesibles porque necesitan un usuario o contraseña para acceder a ellas o bien son páginas dinámicas, es decir solo sirven información y resultados cuando se rellenan una serie de variables y en ese momento se crea la tabla de datos y no antes.
Por lo tanto no son accesibles a un buscador corriente.

Para simplificarlo quédate con esta idea:

La Internet profunda es la que está compuesta por toda la información y bases de datos a las que los motores de búsqueda y directorios no tienen acceso directo.
De hecho es más que probable que ya la estés usando o la hayas usado sin darte cuenta.


¿Cual es el tamaño de la Internet profunda?

Nadie sabe cuál es el tamaño exacto de la Internet profunda o web invisible. Según un artículo de wikipedia sobre Deep Web:

En el año 2000 se estimaba3 que el tamaño del Internet invisible era de 7.500 Terabytes de datos en unos 550.000 millones de documentos.4 Para comparar se estima que en aquella época la Internet superficial ocupaba 167 Terabytes y el contenido de la Biblioteca del Congreso de Estados Unidos tenía unos 3.000 Terabytes que no eran accesibles por los motores de búsqueda.
Estimaciones basadas en la extrapolación de un estudio de la Universidad de California en Berkeley especula que actualmente el Internet Profundo debe tener unos 91.000 TeraBytes.5

A decir verdad el tamaño poco importa. La idea principal es tener claro que aproximadamente el 95% de toda la información que existe en Internet está sin indexar por ningún buscador.

¡Vaya eso deja un gran espacio de información por ahí fuera del que nos podemos aprovechar! ¿No crees?

La pregunta es ¿como? Bueno ahí es donde entran los sistemas de inteligencia competitiva especializados en cosechar este tipo de información en la Internet profunda pero esto ya es otra historia.

¿Por qué es importante la Internet profunda?

Bueno si lo piensas, la idea de aferrarnos solo a las búsquedas de Google es muy atractiva. Que digo ¡es más que atractiva!

Sería perfecto poder preguntarle cualquier cosa a Google y que este me escupiera los resultados que necesito.

Sin embargo, si consideramos que Google y los demás buscadores se rigen por algoritmos y estos no pueden ser perfectos, además del hecho de que existen bases de datos y páginas dinámicas, pues nos encontramos con la limitación de que una sola herramienta no puede indexar toda la información. Simplemente es imposible.

Así pues, podemos estar seguros de que existe mucha más información de la que éramos conscientes al principio.

De esta forma para localizar determinada información de calidad necesitamos adentrarnos en la web invisible y sacarle partido.
La buena noticia de
 Todo esto es que no todo el mundo accede a la Internet invisible y si sabemos cómo, podemos aprovecharnos al obtener mejores datos e informaciones que nuestros competidores. Así de simple.

¿Por dónde empezar…? Algunos recursos de la Internet profunda

Afortunadamente para todos, hay otras personas que se han hecho la misma pregunta que nosotros y nos han dejado una serie de entradas para la web profunda que podemos aprovechar:
Recursos científicos de la Internet profunda o Internet invisible
·         La web del conocimiento: es una de las mayores bases de datos de citas del mundo con más de 54 millones de registros
·         Elseiver: es un repositorio con más de 2000 revistas de medicina y salud
·         Science Direct: más de 2.500 revistas científicas y más de 11.000 libros
·         Pubmed: es el motor de búsqueda de medline. Contiene mas de 22 millones de documentos de investigación en biomedicina
·         Ingenta: contiene revistas de mas de 12.000 publicaciones
·         Us PTO: es un buscador de patentes y marcas de Estados Unidos de América
·         Espacenet: es un buscador de patentes de los países Europeos
·         Latipat: Bajo la plataforma de espacenet agrega resultados de patentes de países de Latinoamérica, España y Portugal

Recursos estadísticos de la Internet profunda o Internet invisible
·         Eurostat: fuente estadística de todos los países europeos
·         Usa.gov: fuente estadística de EEUU

Recursos sobre datos financieros de la Internet profunda o Internet invisible
·         Bureau Van Dijk: bases de datos de los registros mercantiles de países de la OCDE
·         Duns and Bradstreet: informes financieros de todas las empresas del mundo
·         e-informa y Axesor: datos financieros de empresas españolas y listados de marketing

Recursos de comercio internacional de la Internet profunda o Internet invisible
·         Comtrade: base de datos de la ONU sobre datos de import-export y códigos HS
·         Cameradata: base de datos española sobre los daos de importación y exportación
·         Market access database: datos sobre tarifas arancelarias en los distintos países de destino a las exportaciones
·         Organización mundial de comercio: recoge informaciones legales sobre el comercio internacional.

Recursos sobre legislación de la Internet profunda o Internet invisible
·         Eurolex: incluye toda la información legal y disposiciones sobre la legislación y tratados europeos
·         FDA: es la agencia de alimentación de EEUU aquí puedes encontrar todas las regulaciones acerca de pesticidas, conservantes y aditivos autorizados.

Como ves muchos de estos recursos son sobradamente conocidos y no están escondidos en ninguna parte.
Lo que ocurre es que contenido no está recogido por los buscadores.
Por supuesto estos son solo unos pocos ejemplos y no llegan ni a una minúscula parte de lo que hay por ahí fuera. De hecho siempre aparecen nuevas herramientas o directorios de acceso a la web profunda que tardan en llegar al dominio público.

Otros recursos de la web invisible

Aquí deberíamos hablar de varias herramientas como:
·         Complete planet: Una herramienta que lleva ya muchos años considerándose una de las puertas de acceso principal a la Internet profunda. Este es un directorio con más de 70.000 bases de datos y recursos
·         Infomine: un recurso de la universidad de california que cuenta con más de 100.000 enlaces a otras bases de datos
·         Scirus: es un meta buscador científico especializado en institutos y universidades de investigación

Es justo señalar que gran parte de los recursos auditados de la web profunda provienen de bibliotecas y centros de investigación universitarios y que por lo tanto la información es de gran calidad y valor para la comunidad científica y de investigación.

Aunque también, como hemos visto, podemos encontrar recursos valiosos para la empresa. A parte de estos tres recursos puedes echar un vistazo a esta breve recopilación de Ernesto Marrero de puertas de entrada a la Internet profunda.

También te recomiendo que utilices OJOSE para lanzar una búsqueda simultanea en varios de estos servicios. Es muy práctico.

Como aprovechar la Internet profunda

Lo cierto es que eso no es fácil y depende de encontrar los recursos validos para ti o tu negocio.


Lo que sí puedo asegurar es que cuando identifiques estos es muy importante tener en cuenta la frecuencia de uso que hacemos de estos pozos de información.

Si por ejemplo, hemos dado con uno de ellos y lo usamos recurrentemente con las mismas búsquedas o muy parecidas lo mejor es contar con un sistema que recupere de forma automática esta información en base a repetir estas búsquedas de forma automática.

Esto es lo que hacen los sistemas de inteligencia competitiva. Actúan como un buscador específico de uno o varios de estos directorios de la Internet profunda cosechando la información que se le ha indicado. Sería como programar un buscador que durante 24 horas repite las miles de búsquedas que se le han indicado.
Quieres saber más sobre la Internet profunda

Ciertamente esto no es todo acerca de a la web o Internet profunda. Hay muchísimo más. Los enlaces que he presentado en este artículo apenas son la punta del iceberg de la web invisible.

Si quieres continuar comprendiendo mejor como funciona te dejo un enlace a este libro blanco sobre la web profunda. Esta algo desactualizado pero te servirá para comprender mejor esta parte de la web.

Además hay que mencionar que la web actual tiene varios niveles y que incluso parte de esta web profunda o Internet profunda no es accesible con navegadores convencionales. Ahí tenemos que utilizar  TOR pero eso lo dejamos para otra ocasión.
  
¿Qué te ha parecido esta entrada? ¿Conoces algún recurso de la web profunda que quieras compartir?

Mi selección de artículos para ti



Read more ...

CÓMO OBTENER DATOS EN LA INTERNET PROFUNDA: UNA BREVE GUÍA DE RECURSOS PARA CREAR TU REPOSITORIO DE DATOS

viernes, 26 de junio de 2015
CÓMO OBTENER DATOS EN LA INTERNET PROFUNDA: UNA BREVE GUÍA DE RECURSOS PARA CREAR TU REPOSITORIO DE DATOS

¿Estas buscando datos relacionados con algún tema especifico?¿ no sabes por donde empezar a buscar o ni siquiera si estos datos existen en Internet? ¿Alguna vez te has preguntado donde podrías encontrar los datos que necesitas? Tu respuesta a estas preguntas esta probablemente en extraer los datos en la Internet profunda.
Esta respuesta probablemente no te solucione nada porque lo que necesitas es saber por donde empezar.
Por eso, en esta entrada te mostraré como encontrar los datos que necesitas echando mano de la Internet profunda o Deep Web.
La Internet profunda como fuente datos
Se estima que la Internet profunda es entre 400 y 500 veces más grande que la web convencional, aquella indexada por los buscadores.
Esto convierte a la Internet profunda en una autentica mina de datos por explotar.
El problema esta en que para obtener los datos en la Internet profunda debemos:
1.     Identificar Yacimientos de datos útiles para nuestra organización
2.     Emplear las herramientas necesarias para minar los datos
3.     Procesar los datos e información extraídos de las fuentes de información de la web profunda
Exactamente igual hacen en la industria minera para extraer el mineral valioso de un yacimiento. Primero localizan una veta, después aplican las herramientas de extracción y tercero se procesa el mineral, separando los desechos de lo útil.
Y esto como comprenderás no es fácil.
Consiguiendo los datos en la Internet profunda: Data Scraping
Si eres lo suficiente afortunado de tener claro cuales son tus fuentes de información para extraer los datos en la Internet profunda entonces es probable que te enfrentes al problema de conseguir extraer los datos sin recurrir al tedioso corta-pega.
Entre otras cosas, esta técnica manual puede ser  útil de forma puntual, pero si necesitas extraer los datos de una forma recurrente y tienes 50 fuentes que revisar todos los días, lo cual es más que probable  e incluso me este quedando corto, es posible que nunca acabes el proceso.
Además, estaríamos perdiendo un tiempo valioso para identificar nuevas fuentes de información en la web profunda y aumentar la capacidad de analizar los datos en la Internet profunda.
Para eso podemos echar mano de técnicas de data scraping como:
·         Screen scraping: es una técnica de programación que consiste en extraer de una pagina web, usando ingeniería inversa y alguna herramienta, los datos que nos interesan.
·         Web scraping: sirve para extraer datos e información concretos de una pagina web, generalmente bases de datos dinámicas no indexadas por buscadores, mediante programas de software que simulan la navegación humana.
·         Report mining: es el proceso de extraer datos útiles de informes desestructurados como por ejemplo un PDF para pasarlos a un archivo CSV y poder analizarlos.  Mientras que las dos técnicas anteriores implican trabajar con datos dinámicos el report mining supone extraer datos de formatos de lectura humana como textos, HTML y PDF
Lo cierto es que estas técnicas pueden aplicarse sin tener conocimientos previos de programación gracias a aplicaciones o herramientas como: Mozenda, Screen-scrapers, ScraperWiki, Firebug o Ruby
La ventaja de estas técnicas de scraping es que son casi aplicables a cualquier tipo de web incluidas las páginas web de la Internet superficial.
Sin embargo si se va a hacer uso intensivo de estas técnicas para obtener los datos en la Internet profunda, lo mejor es contar con especialistas, lo que te permitirá ahorrarte: tiempo, dinero y algún disgusto.
Y es que existen algunas limitaciones reales a estas técnicas tales como:
·         Páginas con un código HTML mal formateado
·         Las páginas web cerradas que requieren una autentificación por usuario y contraseña o un código Captcha
·         Sistemas de protección contra accesos masivos etc…
Esto complica la aplicación las técnicas de scraping para la extracción de datos en la Internet profunda que pueden requerir de elementos de programación más avanzados.
Relación de recursos para obtener datos en la Internet profunda
Si no tienes claro de donde obtener los datos en la Internet profunda que pueden ser de utilidad para ti, no te quedara más remedio que localizar las fuentes de tu interés.
En este caso te recomiendo dar los siguientes pasos:
Paso # -1: Hojea los dataset de páginas web y servicios de la web profunda:
En los últimos años gracias a la corriente del open data (datos abiertos) multitud de organismos e instituciones se han volcado en la publicación y creación de sitios, portales y Hubs de datos. Este es un buen lugar para empezar a buscar lo que necesitas:
·         Datacatalog: es un indice global de todos los sitios gubernamentales de open data que existen actualmente el mundo
·         Datahub: un recurso de la Open Knowledge Fundation donde se agregan dataset listos para ser utilizados incluso por software
·         Trading economicsWorld Bank y Naciones unidas: contienen datos de indicadores económicos de alta calidad y de años atrás.
·         Infochips y Datamarket: tiendas de datos para el uso y análisis de los mismos.
Paso # -2: Emplea y pregunta en los foros:
Para el caso que nos ocupa de los datos en la Internet profunda lo mejor es emplear directamente estos dos recursos:
·         Quora: este enlace va directo a la pregunta dónde encontrar grandes dataset abiertos al público. Donde encontrarás cientos sino miles de fuentes donde encontrar datos
·         Get the data: un foro especializado en datos abiertos donde podrás preguntar (en ingles) donde encontrar los datos que buscas
·         Reddit datasets: es una de las subcarpetas de reddit donde puedes encontrar fuentes de datos.
Paso # -3: Recursos de la Open Knowledge Fundation:
OKF es una organización internacional dedicada a difundir el conocimiento que dispone de varias iniciativas donde los datos juegan un papel principal:
·         Open Science
·         Open Data census
·         Open Access to Research
·         Open Spending Datasets
Paso # -4: Utiliza un buscador de datos estadísticos:
Localizar datos en la Internet profunda se ha simplificado en parte gracias a ZANRAN.
·         Zanran: un buscador de datos estadísticos de la web profunda
Conclusiones sobre la extracción de datos en la Internet profunda
Como hemos dicho anteriormente en esta entrada la extracción de datos en la Internet profunda es similar a la actividad minera.
1.     Identificar los yacimiento de datos o fuentes de información de donde extraer datos
2.     Emplear las herramientas necesarias para extraer los datos: Data Scraping
3.     Limpiar, procesar y preparar los datos para el análisis.
El tercer paso apenas lo hemos tratado pero viene implícito en el objetivo del Data Scraping que no es otro que recuperar los datos en un formato que pueda ser leído por una máquina, para después permitirnos hacer el análisis.
Un ejemplo sería recuperar los datos de un archivo PDF para pasarlos a un CSV que puede ser analizado por un Excel.
De esta forma conseguimos apalancar nuestros esfuerzos en la web profunda. 
Mi selección de artículos para ti

Read more ...

entrada a la presentacion busqueda avanzada

jueves, 18 de junio de 2015
Saludos a todos ..

 Aquí os dejo el enlace a la presentación de la búsqueda avanzada, como nos pide en el ejercicio del tema 3.

https://docs.google.com/presentation/d/1idPjY8RPrxhzg5HEUXmOtoZAqHaEYeuiOimRi4X99CE/edit?usp=sharing

Espero que os guste

Fernando
Read more ...

Generalidades sobre la búsqueda avanzada en Internet.

jueves, 18 de junio de 2015

Generalidades sobre la búsqueda avanzada en Internet.


En la actualidad la navegación por Internet cada vez se hace más complicada, debido a la exponencial cantidad de información que aparece continuamente. Encontrar de forma rápida y sencilla algo que andamos buscando, puede convertirse en una tarea casi imposible y, a veces, con resultados no deseados.
Necesitamos algún mecanismo o dispositivo que permita la clasificación, catalogación u organización de esta gran cantidad de información, de tal forma que su localización sea más sencilla.
Todas los usuarios de teléfonos conocemos los listines telefónicos o las famosas “Páginas Amarillas” y conocemos su utilidad. Por otra parte, estamos convencidos de que todos los navegantes hemos oído alguna vez términos como “buscadores” o “motores de búsqueda”, el equivalente en Internet a las páginas amarillas o a las guías de teléfonos. La mejor forma de encontrar información en la Web es utilizar alguno de estos denominados buscadores o actualmente Portales.
Estos buscadores, o motores de búsqueda, no son más que aplicaciones informáticas que rastrean la Web catalogando, clasificando y organizando la información, para después ofrecérsela a los navegantes. Podrían definirse como grandes bases de datos indexadas de páginas Web.
Los buscadores funcionan:
1. Mediante programas que buscan en bases de datos que se mantienen automáticamente por los denominados robots. En este tipo de búsqueda basta con introducir el término sobre el que deseamos encontrar información.
2.A través de índices, que catalogan la información por temas. Estos índices suelen estar organizados desde los temas más generales a los más específicos, existe una cierta jerarquía en su organización y el usuario es guiado en todo momento en su búsqueda.
Cada vez que buscas una palabra el resultado de enlaces es muy genérico. Por eso, hay formas de buscar palabras concretas.
Para hacer búsquedas avanzadas tan sólo hay que añadir operadores, cada buscador admite unos diferentes pero los más utilizados son AND (Y), OR (O) y NOT (NO).
Cuando hacemos una búsqueda en Internet siempre soñamos con encontrar la página perfecta, aquella página que tiene exactamente la información que estamos buscando.
En primer lugar debes elegir un buen motor de búsqueda, hoy por hoy Google es un estupendo buscador de información que además nos permite traducir páginas escritas en otro idioma, localizar imágenes y grupos de discusión sobre temas concretos.
La mayoría de la gente utiliza éste u otro buscador simplemente escribiendo algunas palabras relacionadas con la información requerida. El resultado de la búsqueda es a menudo una colección de páginas que poco tienen que ver con lo deseado. Si sigues las siguientes reglas seguramente encuentres esa información tan ansiada:
Da al buscador muchas palabras relacionadas con tu búsqueda.
Si buscas una información muy precisa escribe una frase que esperas encontrar.
Sigue el rastro de la dirección de la página.
Busca páginas similares.
Algunos consejos y trucos para mejorar tus búsquedas.
1. Haz una búsqueda previa, y afínala después.
2. Elige los términos de búsqueda más específicos.
3. Piensa en formas de excluir información.
4. Busca expresiones exactas.
5. Ofrece diferentes alternativas al buscador.
6. Elimina las palabras que no aportan nada.
7. No permitas que una falta de ortografía te impida dar con lo que buscas.
8. Combina todos los trucos anteriores.
9. Lista de favoritos.
10. Utiliza varias ventanas.
11. Comprueba tu ortografía.
12. Fiabilidad de la fuente
13. Mayúsculas y minúsculas.
14. Acentos
15. Usar el Block de Notas
Read more ...