domingo, 28 de junio de 2015

1- ¿Qué es Apache Hadoop?

1-Introducción



[1] “Hadoop es un framework que contiene un conjunto de algoritmos para almacenamiento y procesamiento de grandes cantidades de datos distribuidos (Big data) en clusters de ordenadores, usando un modelo simple de programación”.



[2] “Es un framework de licencia libre que soporta aplicaciones distribuidas y permite trabajar con miles de nodos y cantidades  de petaBytes o exaBytes de datos”.


[4] Doug Cutting, Arquitecto Jefe de Cloudera, ayudó a crear Hadoop por la necesidad de gestionar los datos de la web que sufrieron un aumento enorme, y crecieron  mucho más allá de la capacidad de los sistemas que los manejaban.


Hadoop es multiplataforma, está implementado en Java, se inspiró inicialmente en trabajos publicados por Google sobre tratamiento de grandes cantidades de datos y fue desarrollado con el apoyo económico de Yahoo.

1.1-Hadoop, una nueva forma de procesamiento y almacenamiento.



Hadoop fue pionero en una forma nueva de almacenamiento y procesamiento de datos: en lugar de depender de hardware y sistemas de cómputo propios y los costes que esto supone, Hadoop permite distribuir el procesamiento paralelo de grandes cantidades de datos a través de servidores de bajo coste en poder de empresas que se dedican a dar servicio con ellos, de forma que se puede escalar con el único límite del presupuesto disponible.


Con Hadoop, no hay cantidad de datos demasiado grande y en el mundo actual, donde todo está conectado se crean más y más datos todos los días, y las ventajas revolucionarias de Hadoop significan que las empresas y las organizaciones ahora pueden encontrar valor en los datos que antes no podían gestionar.


Una de las claves en el gran rendimiento de Hadoop se encuentra en que cada uno de los nodos del sistemas de archivos debe saber su ubicación y proporcionársela al sistema (Normalmente el nombre del switch donde está el nodo), de forma que la información contenida se pueda usar desde el propio nodo o desde el rack en el que se encuentra, reduciendo el tráfico de la red.


Los módulos de Hadoop están diseñados suponiendo que los fallos de hardware son comunes y deben ser manejados en el software por el framework, es por esto que la ubicación de la información también se usa para crear copias de respaldo, como detallaremos más adelante.

Está inspirado en las tecnologías de google GFS (Google File System), la cual es la parte de almacenamiento y Map&Reduce, la parte de procesamiento, ambas forman el núcleo de Hadoop.

Hasta aquí la primera parte, en los próximos días saldrán las siguientes.

Referencias:

[1] Sitio Oficial Hadoop: http://hadoop.apache.org/

Reacciones:

0 comentarios:

Publicar un comentario