¿Qué es Big Data? ¿Qué es Hadoop?

19 de julio de 2014 - 01:11 - Herramientas para CM

Fuente: www.ibm.com/developerworks/ssa/data/library/techarticle/dm-1209hadoopbigdata/

¿Qué es Big Data?

Big Data son grandes en cantidad, se capturan a un índice rápido, y son estructurados o no estructurados, o alguna combinación de lo de arriba. Estos factores hacen que los Big Data sean difíciles de capturar, extraer, y gestionar usando métodos tradicionales. Hay tanta publicidad en esta espacio que podría haber un amplio debate tan solo en relación a la definición de big data.

El uso de la tecnología Big Data no se restringe a grandes volúmenes. Los ejemplos en este artículo usan pequeños ejemplos para ilustrar las posibilidades de la tecnología. A partir del años 2012, los clústers que son grandes están en el rango de 100 Petabyte.

Los Big Data pueden ser tanto estructurados como no estructurados. Las bases de datos relacionales tradicionales, como Informix y DB2, proporcionan soluciones comprobadas para datos estructurados. A través de la extensibilidad, también gestionan datos no estructurados. La tecnología Hadoop trae técnicas de programación nuevas y más accesibles para trabajar en almacenamientos de datos masivos con datos tanto estructurados como no estructurados.

¿Qué es Hadoop?

A continuación hay varias definiciones de Hadoop, cada una dirigida a una audiencia dentro de la empresa:

Para los ejecutivos: Hadoop es un proyecto de software de código abierto de Apache para obtener valor de volumen/velocidad/variedad increíbles de datos acerca de su organización. Use los datos en vez de desechar la mayoría de ellos.
Para los gerentes técnicos: Una suite de código abierto de software que extrae los BigData estructurados y no estructurados acerca de su compañía. Se integra con su ecosistema existente de Inteligencia de Negocios.
Para el departamento legal: Una suite de código abierto de software que es empacado y cuenta con soporte de múltiples proveedores. Vea la sección Recursos en relación a indemnización IP.
Ingeniería: Un entorno de ejecución paralelo masivamente, de nada compartido, basado en Java map-reduce. Piense en cientos a miles de computadoras trabajando en el mismo problema, con resiliencia a fallas incorporada. Los proyectos en el ecosistema Hadoop proporcionan cargado de datos, lenguajes de alto nivel, despliegue automatizado de nube, y otras posibilidades.
Seguridad: Una suite de software con seguridad Kerberos.