LCGXXI


Big Data

Gran conjunto de datos con escasa o nula estructura.

Conjunto de información fruto de la comunicación transmitida entre máquinas, entre humanos, o bien entre cualquiera de estos grupos en sus distintas conbinaciones. La clasificación principal sin embargo, la conforma el hecho de si esta información ha sido generada por una máquina o por un ser. Por ejemplo un email generado por una persona, o el archivo de registro de un servidor de Internet. Internet en conjunto como Big Data seria una mezcla de información generada por personas y máquinas.

El volumen de información es abrumador, ya que si tenemos en cuenta que no únicamente las personas generan información, sino que las máquinas también: mediante sensores, análisis de las redes sociales, monitorización, GPS, etc. Estariamos refiriendonos a cientos de petabytes (100000000000000) almacenados. Y continuamente se suma información a esta cantidad, difícil de determinar. También difícilmente almacenables en bases de datos. Es una cantidad difícil de procesar. Estos dos problemas: almacenamiento y procesamiento; constituyen Big Data.

Parece que Big Data es sinónimo de grandes problemas por resolver. Pero es la solución al costo inasumible de almacenar, categorizar y archivar en una base de datos tradicional. En definitiva de estructurar la información. Y es que estamos tratando con información muy poco estructurada, pero de la que deseamos extraer inteligencía y conocimiento.

Como ya se mencinó al describir lo que es la computación distribuida para resolver grandes problemas como el de almacenar o procesar Big Data, es necesario recurrir al procesamiento paralelo y cluster de computadoras.

Siendo necesario almacenar y procesar datos en gran cantidad y sin estructura o esquema definido; surge, gracias a Yahoo, para solucionarlo Apache Hadoop que funciona sobre un cluster de ordenadores. Permite el procesamiento distribuido de grandes conjuntos de datos a través de grupos de ordenadores y está diseñado para operar desde servidores individuales hasta miles de máquinas Linux unidas, cada uno con su computación y el almacenamiento local; es una de sus principales cualidades la tolerancia a fallos, es de código abierto y desarrollado en Java. Hadoop almacena en Hadoop Distributed File System (HDFS) y procesa con MapReduce.


©2017 JCBretal
Powered by Google App Engine