Facebook Twitter Google +1     Admin

Se muestran los artículos pertenecientes a Octubre de 2014.



¿Qué es el Apache Hadoop?

Fuente: http://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/397377/que-es-el-apache-hadoop?source=Blog_Email_[%C2%BFQu%C3%A9%20es%20el%20Apache%20Ha] 

Mucha gente aún se pregunta qué es el Apache Hadoop. Tiene que ver con big data, Hortonworks están implicados pero ¿en qué consiste reamente? 

Apache Hadoop es un framework de código abierto que permite el almacenamiento distribuido y el procesamiento de grandes conjuntos de datos en base a un hardware comercial.

En otras palabras,Hadoop hace posible a las organizaciones obtener conocimiento rápidamente a partir de cantidades masivas de datos, estructurados y no estructurados, posicionándolas al nivel de las exigencias actuales de los mercados en términos de dinamismo y capacidad.

El ecosistema Hadoop cuenta con soluciones de todo tipo para cubrir cualquier necesidad que pueda presentarse al negocio en materia de:

  •  Gestión de datos

  •  Acceso a los datos.

  •  Gobernabilidad e integración de datos.

  •  Seguridad de la información.

  •  Operaciones.

Son precisamente estas funcionalidades las que mejor definen qué es el Apache Hadoop aunque, para conocer realmente las posibilidades de esta herramienta y el secreto de su versatilidad, hay que comprender el origen de los beneficios que aporta; los que impulsan a muchas corporaciones a decantarse por esta alternativa para sus proyectos big data. Todas las ventajas de Hadoop se basan en algunas de sus principales cualidades:

  •  Escalabilidad: esta herramienta permite almacenar y distribuir conjuntos de datos inmensos en sus cientos de servidores que operan en paralelo, permitiendo olvidarse de los límites que otras alternativas imponen.

  •  Velocidad: garantiza una eficiencia de procesamiento que nadie puede igualar, ¿de qué otra forma se pueden procesar terabytes de información en pocos minutos?

  •  Efectividad en costes: el almacenamiento de datos se convierte en una realidad para las empresas ya que la inversión necesaria pasa de ser decenas de miles de Euros por terabyte a quedarse reducida a cientos de Euros por terabyte.

  •  Flexibilidad: ¿nuevas fuentes de datos? no hay problema, ¿nuevos tipos de datos? por supuesto... Apache Hadoop se adapta a las necesidades del negocio y le acompaña en su expansión, aportando soluciones reales para cualquier iniciativa que surja.

  •  Resistencia al fracaso: su tolerancia a errores es uno de sus atributos mejor valorados por los usuarios ya que toda la información contenida en cada nodo tiene su réplica en otros nodos del cluster. En caso de producirse un fallo siempre existirá una copia lista para ser usada. 

 

hadoop elephant rgb resized 600 

Descárgate nuestra Guía Avanzada sobre Big Data

 

Qué es el Apache Hadoop: soluciones para el negocio

Todo problema requiere de una solución y, por eso, aproximarse a descubrir qué es el Apache Hadoop implica adentrarse en los proyectos de Apache Software Foundation.  Cada uno de ellos ha sido desarrollado para ofrecer una función explícita y, por eso, cada uno cuenta con su propia comunidad de desarrolladores, así como ciclos de lanzamiento individuales. Desplegar, integrar y trabajar con Hadoop tiene que ver con:

1. Gestión de datos: el objetivo es almacenar y procesar grandes cantidades de datos en una capa de almacenamiento de escalabilidad horizontal y, para lograrlo surge Hadoop Distributed File System (HDFS). Esta tecnología, que trabaja a través de hardware de bajo coste, sienta las bases para la escala eficiente desde la capa de almacenamiento. También se apoya en Apache Hadoop HILO, que proporciona la gestión de recursos y arquitectura conectable para permitir una amplia variedad de métodos de acceso a datos, haciendo posible operar en los datos almacenados en Hadoop con los niveles de rendimiento y de servicio deseados. Por último Apache Tez, que obra la magia, procesamiento big data casi en tiempo real, gracias a su generalización del paradigma MapReduce que gana en eficacia.

2. Acceso a datos: no se puede contar con la perspectiva necesaria para responder a la cuestión qué es el Apache Hadoop sin conocer que uno de sus puntos fuertes es la accesibilidad que garantiza, al permitir interactuar con los datos en una amplia variedad de formas  y en tiempo real. Las aplicaciones que lo consiguen son:

  •  Apache Hive: la tecnología de acceso de datos más ampliamente adoptada.

  •  MapReduce: que permite crear aplicaciones que procesan grandes cantidades de datos estructurados y no estructurados en paralelo.

  •  Apache Pig: una plataforma para el procesamiento y el análisis de grandes conjuntos de datos.

  •  Apache HCatalog: que proporciona una forma centralizada para los sistemas de procesamiento de datos que hace posible comprender la estructura y la ubicación de los datos almacenados en Apache Hadoop.

  •  Apache Hive: almacén de datos que permite un fácil resumen y el lanzamiento de consultas ad-hoc a través de una interfaz similar a SQL para grandes conjuntos de datos almacenados en HDFS.

  •  Apache HBase: sistema de almacenamiento de datos orientada a columnas NoSQL que proporciona acceso a la lectura o escritura big data en tiempo real para cualquier aplicación.

  •  Apache Storm: añade capacidades fiables de procesamiento de datos en tiempo real.

  •  Apache Kafka: es un sistema de mensajería rápida y escalable de publicación-suscripción que se utiliza a menudo en lugar de los corredores de mensajes tradicionales, debido a su alto rendimiento, replicación y tolerancia a fallos.

  •  Apache Mahout: proporciona algoritmos de aprendizaje automático escalables para Hadoop que sirven de gran apoyo a los data Scientist en sus tareas de agrupamiento, clasificación y filtrado.

  •  Apache Accumulo: dispositivo de almacenamiento de datos de alto rendimiento que incluye sistemas de recuperación. 


3. Gobernabilidad e integración de datos: hace posible la carga de datos rápida y eficiente en base a la intervención de:

  •  Apache Falcon: es un marco de gestión de datos que simplifica la gestión del ciclo de vida de datos y su procesamiento, permitiendo a los usuarios configurar, administrar y orquestar el movimiento de datos, su procesamiento en paralelo, la recuperación de errores y la retención de datos; en base a políticas para la gobernabilidad.

  •  Apache Flume: permite mover, de manera agregada y eficiente, grandes cantidades de datos de registro de muchas fuentes diferentes a Hadoop.

  •  Apache Sqoop: agiliza y facilita el movimiento de datos dentro y fuera de Hadoop.

4. Seguridad: Apache Knox es el encargado de proporcionar un único punto de autenticación y acceso a los servicios de Apache Hadoop en un clúster. De esta forma se asegura la simplicidad en materia de seguridad, tanto para los usuarios que acceden a los datos del cluster, como para los operadores que se encargan de la administración del cluster y controlan su acceso.

5. Operaciones: Apache Ambari ofrece la interfaz y las API necesarias para la provisión, gestión y monitorización de racimos de Hadoop y la integración con otros software de la consola de gestión. Apache Zookeeper coordina procesos distribuidos, permitiendo a las aplicaciones distribuidas el almacenamiento y mediación de cambios a la información de configuración importante. Por último, Apache Oozie se encarga de garantizar la lógica de trabajo en las tareas de programación.

 

Post relacionados:

 

hadoop y el bigdata


 

No hay comentarios. Comentar. Más...

La explosión del Internet de las cosas: boom de dispositivos y más seguridad

Fuente: http://goo.gl/jUkT1J

Big Data Internet de las cosas

La domótica de un futuro bastante cercano, no más de ocho años, estará dominada por una míriada de dispositivos conectados y sensores de última generación, cuyo conjunto conforma el denominado Internet de las cosas (loT). Según la consultora Gartner, un hogar medio dispondrá de alrededor de medio millar de estos aparatos inteligentes.

En la próxima década, el entorno doméstico y cualquier otro espacio cotidiano, como el lugar de trabajo o espacios de ocio sufrirán una transformación radical que ofrecerá grandes oportunidades de negocio a proveedores y provocará la transformación de nuestra realidad más cercana. Sus implicaciones sociales serán tan profundas que todavía son difíciles de adivinar. 

Su interacción -tanto entre dispositivos y con las personas- y conectividad nos hará la vida más fácil. Por otro lado, esta tendencia creciente también traerá problemas de seguridad sobre protección de datos y privacidad que también se intentarán solventar.

Dentro de los dispositivos la consultora engloba desde los electrodomésticos, monitores de actividad física, de salud, videoconsolas, detectores de humo, alarmas, termostatos, así como tecnologías asociadas al transporte, incluidos los vehículos y un sinfín de gadgets que se comunican de forma inalámbrica.

La era del Internet de las cosas

La era del Internet de las cosas abarca desde el ámbito empresarial o digital hasta nuestro entorno cotidiano. Gartner predice que estos dispositivos conectados a la red crecerán exponencialmente hasta alcanzar los 26.000 millones en 2020, lo que supondrá una oportunidad e negocio de más de 300.000 millones de dólares sólo en ese año para proveedores y, de forma indirecta generará cerca de 2 billones de dólares.

Actualmente, se estima que estamos rodeados por unos cuatro o cinco de estos dispositivos, desde el smartphone hasta pequeños y grandes electrodomésticos, pasando por gadgets de todo tipo. Pero la revolución tecnológica de loT crece exponencialmente, y las previsiones para los próximos años son espectaculares.

De acuerdo con la consultora IDC, el mercado de loT moverá más de 7 trillones de dólares dentro de tres años. En concreto, se espera una explosión de tecnologías para mejorar la conectividad, con fuerte presencia de WiFi, Bluetooth SigBee, cellular y también mejoras en su autonomía, así como un precio accesible.

El potencial de esta nueva ola treraá la creación de nuevos modelos de negocio, servicios online, uso de la computación en la nube y aumento del uso de las redes sociales. A su vez, otro reciente informe de Gartner dice que a finales de 2017 el 20 por ciento de las empresas tendrán servicios de seguridad dedicados a proteger iniciativas empresariales en el ámbito de loT.

La securización se considera clave para el desarrollo de este tipo de proyectos, razón por la que, junto con la maduración de un mercado hoy todavía incipiente, se espera una reducción de la vulnerabilidad, según Gartner. Ahora, el 70 por ciento de los dispositivos de Internet de las cosas es vulnerable y siete de cada diez usuarios están preocupados por la seguridad.

Fuente imagen: kanate / FreeDigitalPhotos.net

Post relacionados:

 

BIG DATA LAS CUATRO GRANDES EMPRESAS

No hay comentarios. Comentar. Más...

Ms


Blog creado con Blogia. Esta web utiliza cookies para adaptarse a tus preferencias y analítica web.
Blogia apoya a la Fundación Josep Carreras.

Contrato Coloriuris
Plantilla basada en el tema iDream de Templates Next
Tweets por @MaximoKinast