Big Data, Introducción a Conceptos y Terminología – PARTE I

Este tutorial en dos partes presenta una traducción al español del excelente artículo «An Introduction to Big Data Concepts and Terminology» de Justing Ellingwood, publicado en el sitio de la comunidad de Digital Ocean.

1. Introducción

El término Big Data es una sábana que cubre las estrategias no-tradicionales y las tecnologías necesarias para recolectar, organizar, procesar y obtener información desde grandes conjuntos de datos (datasets). Mientras que el problema de trabajar con datos que exceden el poder de cómputo o la capacidad de almacenamiento no es nueva, la ubicuidad, escala y el valor de este tipo de computación se ha expandido mucho en años recientes.

En este artículo, hablaremos de Big Data a un nivel fundamental y definiremos conceptos comunes con lo que se puede haber cruzado mientras investigaba acerca del tema. También se le dará una mirada de alto nivel y se definirán a algunos de los procesos y tecnologías que actualmente se usan en este campo.

2. ¿Qué es Big Data?

Una definición exacta del término Big Data es difícil de precisar porque los proyectos, vendedores, practicantes y profesionales del negocio, utilizan el término de forma muy diferente. Con esto en mente, y hablando de forma general, Big Data trata de :

Datasets grandes.
Un grupo de estrategias de computación y las tecnologías que se utilizan para manipular datasets grandes.

En este contexto, «Datasets grandes» se refiere a un conjunto de datos muy grande para ser razonablemente procesado o almacenado con las herramientas tradicionales, o en un solo computador. Esto significa que la escala típica de los «Datasets grandes» está cambiando constantemente y puede variar de forma significativa de una organización a otra.

3. ¿Por qué los Sistemas de Big Data son diferentes?

Los requerimientos básicos para trabajar con Big Data son los mismos que aquellos para trabajar con Datasets de cualquier tamaño. Sin embargo, la escala masiva, la velocidad para ingerir (ingesting) y procesar, y las caracteristicas de los datos con los que se tiene que tratar en cada etapa del proceso presentan nuevos desafíos significativos cuando se diseñan soluciones. La meta de la mayoría de los sistemas de Big Data es reflotar información y encontrar conexiones en grandes volúmenes de datos heterogéneos que no serían posibles usando lo métodos convencionales.

En el 2001, Doug Laney de Gartner, fué el primero en presentar lo que se conoce como «Las Tres V de Big Data» para describir algunas de las características que hacen a Big Data diferente de otras formas de procesamiento de datos:

Volumen: La inmensa escala de información procesada, ayuda a definir los sistemas Big Data. Estos datasets pueden ser órdenes de magnitud más grandes que los datasets tradicionales, lo que demanda una mayor planificación en cada etapa de los ciclos de vida de procesamiento y almacenamiento. A menudo, debido a que los requerimientos de trabajo exceden las capacidades de un solo computador, esto se vuelve un desafío de entrevistar, almacenar y coordinar los recursos de un grupo de computadores. La administración del cluster y los algoritmos capaces de romper las tareas en pequeñas piezas se vuelven cada vez más importantes.
Velocidad. Otra forma en la cual Big Data difiere significativamente de otros sistemas de datos es la velocidad con que la información se mueve a través del sistema. Frecuentemente los datos están fluyendo en los sistemas desde múltiples fuentes y a menudo en espera para ser procesada en tiempo real para ganar conocimiento y actualizar el conocimiento actual del sistema.
Variedad. Los problemas que ocupan a Big Data son a menudo únicos debido al amplio rango tanto de las fuentes que se están procesando, como de su calidad relativa. Los datos pueden ser ingeridos desde sistemas internos como logs de servidores y aplicaciones, desde feeds de socialmedia y desde otras APIs externas, desde sensores para dispositivos físicos, y desde otros proveedores. Big Data busca manipular datos potencialmente útiles sin importar desde dónde vengan, y consolidándo toda la información en un solo sistema. Los formatos y tipos de medios pueden también variar significativamente . Medios enriquecidos como imágenes, archivos de video y grabaciones de audio son ingeridas en paralelo con archivos de texto, logs estructuradores, etc. Mientras los sistemas de procesamiento de datos más tradicionales pueden esperar que los datos que ingresen a la cañería (pipeline) ya vengan etiquetados, formateados y organizados, los sistemas de Big Data usualmente aceptan y almacenan datos más cercanos a su estado crudo. Idealmente, cualquier transformación o cambios a los datos crudos sucederá en la memoria en tiempo de procesamiento.

Otras Características

Varios individuos y organizaciones han sugerido expandir «Las Tres V» originales, aunque estas propuestas han tendido a describir desafíos más que características para Big Data.

Algunos agregados comunes son:

Veracidad: La variedad de las fuentes y la complejijdad de procesamiento puede llevar a desafíos en la evaluación de la calidad de los datos (y, consecuentemente, en la calidad del análisis resultante).
Variabilidad: La variación en los datos produce una amplia variación en su calidad. Se pueden requerir recursos adicionales para identificar, procesar o filtrar los datos de baja calidad para hacerlos más útiles
Valor: El desafío final de Big Data es entregar valor. A veces, los sistemas y procesos que se encuentran son suficientemente complejos que utilizar los datos para y extraer algo de valor puede volverse muy difícil.

4.- ¿Cómo luce el Ciclo de Vida de Big Data?

Entonces, ¿como se procesan los datos efectivamente cuando se trata con un sistema de Big Data? Aunque al acercarse a la implementación los enfoques pueden diferir, hay algunos puntos comunes en las estrategias y el software, de las que podemos generalmente hablar. Mientras los pasos presentados a continuación pueden no ser ciertos para todos los casos, son ampliamente utilizados.

Las categorías generales para las actividades que involucran al procesamiento en Big Data son:

Ingestión de Datos en el Sistema
Persistencia de Datos en Almacenamiento
Computación y Análisis de datos
Visualización de los resultados

Antes que veamos estas cuatro categorías del workflow en detalle, tomaremos un momento para hablar acerca de la computación en cluster, una importante estrategia empleada por la mayoría de las soluciones de Big Data. Instalar un cluster de computadores es a menudo el fundamento para la tecnología que se utiliza en cada una de las etapas del ciclo de vida.

¿Cómo luce el Ciclo de Vida de Big Data?

Debido a las cualidades del Big Data, los computadores individuales son a menudo inadecuados para manipular los datos para la mayoría de las etapas. Para hacerse cargo de mejor forma las altas necesidades de almacenamiento y cómputo de Big Data, los clusteres de computadores son lo que mejor calza.

El software de clusterización para Big Data combina los recursos de muchas máquinas pequeñas, buscando proveer una cantidad de beneficios:

Encuesta de Recursos: Combinar el espacio de almacenamiento disponible para mantener los datos es un beneficio claro, pero entrevistar la CPU y la memoria es también extremadamente importante. Procesar datasets grandes requiere grandes cantidades de estos tres recursos.
Alta Disponiblidad: Los clusters pueden proveer niveles que varían en tolerancia a fallos y disponibilidad garantizada para prevenir fallas de software o hardware que afecten el acceso a los datos y el procesamiento. Esto se vuelve cada vez más importante a medida que continuamos para enfatizar la importancia del análisis en tiempo-real.
Fácil Escalabilidad: Los clusters facilitan escalar horizontalmente agregando máquinas adicionales al grupo. Esto significa que el sistema puede reaccionar a los cambios en los requerimientos sin expandir los recursos físicos en una máquina.

La utilización de clusters requiere una solución para administrar la membrecía al cluster, coordinar los recursos compartidos, y agendar el trabajo actual en los nodos individuales. La membrecía al cluster y la ubicación de recursos se puede manipular mediante software como Hadoop‘s YARN (Yet Another Resource Negotiator) o Apache Mesos.

El cluster ensamblado de computadores a menudo actúa como una base con la que otros softwares se comunican con los procesos y los datos. Las máquinas involucradas en el cluster de computación están también típicamente involucradas en la administración de un sistema de almacenamiento distribuido, del cual hablaremos cuando discutamos la persistencia de los datos.

… Continúa en «Big Data, Introducción a Conceptos y Terminología – PARTE II«

Una respuesta a “Big Data, Introducción a Conceptos y Terminología – PARTE I”

Big Data, Introducción a Conceptos y Terminología – PARTE II – SysAdmin Recipes

septiembre 17, 2019 at 6:55 pm

[…] Continuación del Artículo “Big Data, Introducción a Conceptos y Terminología – PARTE I” […]

Responder