¿Qué es Big data y para que sirve? Una introducción a Big data

Angel M. Rayo

02/04/2015
Data & Analytics
Artículo

¿Qué és Big data y para que sirve?, son algunas de las preguntas habituales cuando nos acercamos a esta tecnología. En esta introducción a Big data esperamos sacar de dudas.

Una introducción a Big data

Big Data nació con el objetivo de cubrir unas necesidades no satisfechas por las tecnologías existentes, como es el almacenamiento y tratamiento de grandes volúmenes de datos que poseen unas características muy concretas definidas como las tres V’s (puede haber más):

Volumen, hace referencia al tamaño de los datos que pueden provenir de múltiples fuentes.
Velocidad, define la rapidez con que llegan los datos usando unidades como tera, peta o exa bytes
Variedad, hablamos de datos:
- Estructurados
- Semi-estructurados
- No estructurados

Una característica importante acerca de los datos, es que son considerados como la fuente de la verdad, es decir, no se alteran durante su tratamiento. La tecnología subyacente en Big Data es Apache Hadoop, en la actualidad cuenta con ocho años de historia, ¿pero qué es Hadoop?

Hadoop es un sistema operativo distribuido que permite procesar en paralelo grandes volúmenes de datos, sobre un hardware convencional.

Es un tipo de sistema operativo especial, ya que trabaja sobre otro como Linux o Windows (utilizando la implementación de Hortonworks). Posee las siguientes características:

Escalable, permite crear estructuras en cluster, a las que se les puede añadir
nuevos nodos fácilmente.
Flexible, se adapta a múltiples formatos de datos, puede utilizar o no esquemas para
tratar información y permite que los usuarios lo usen en diferentes niveles.
Fiable, ha sido diseñado, teniendo en cuenta que el hardware y software pueden fallar.
Rápido y lento, es muy rápido para tratar grandes cantidades de datos, pero puede
ser lento al trabajar con poca información.

Una pregunta que siempre nos asalta al principio, ¿es si no son suficientes las bases de datos relacionales RDBMS?, la respuesta es que hacen tareas diferentes y que una no excluye a la otra, son complementarias.

Datos no estructurados, 95%

Hadoop cubre un área muy importante, como es el tratamiento de datos no estructurados, normalmente los que no son almacenados en bases de datos convencionales, pero que algunos estudios cifran en el 95% de los datos producidos por una empresa.

Probablemente donde aparecen más dudas, es al plantearnos a quién va dirigida esta tecnología. Si pensamos en grandes volúmenes de datos, existen un gran número de empresas que han retirado su histórico de datos, porque era inviable su tratamiento con las tecnologías convencionales, como banca, seguros, centros de investigación, pero aparecen nuevas necesidades derivadas del tratamiento de datos asociados a las redes sociales, ya que muchas empresas han realizado una importante inversión en ellas, este hecho, abre el mercado de Big data a un amplio abanico de empresas que en la actualidad, no realizan un análisis de datos, y por ello, pierden la oportunidad de mejorar o generar nuevas líneas de negocio.

Lo que en principio, parecía una tecnología dirigida a empresas con altísimos volúmenes de datos, va asentándose la idea de que también puede aplicarse a pequeñas y medianas empresas, con unas necesidades muy concretas.

Big data con un crecimiento exponencial

Tengamos en cuenta que actualmente el ritmo de crecimiento de los datos es exponencial, de esta manera, es lógico pensar en nuevas herramientas que nos ayuden en el tratamiento de estos silos de información, que pueden provenir de múltiples y diferentes canales, como:

Histórico de datos, datos acumulados durante años, que pueden arrojar
estadísticas y tendencias muy representativas
Redes sociales, muy útiles si podemos filtrar y analizar el feedback de
nuestros clientes y proveedores.
ClickStream, conocer la navegación y el uso que hacen nuestros clientes de nuestro sistio web.
Sensores, pueden llegar a generar auténticas montañas de datos para evaluar.
Dispositivos móviles, la incorporación de los mismos a las estructuras
empresariales siguiendo BYOD (Bring Your Own Device).
Internet, es una poderosa herramienta si somo capaces de organizar
la información que necesitamos.

Al plantearnos la necesidad de llevar a cabo una implantación de big data, debemos tener en cuenta que por un lado dispondremos de una solución para nuestros datos estructurados (RDBMS convencional) y no estructurados o semi (Hadoop) y que necesitaremos dar respuesta al análisis de datos, para ello el ecosistema Big data dispone de múltiples soluciones, algunas de bajo nivel y otras que nos abstraen de esa complejidad, pero que necesitaremos responder.

Así termina una introducción a Big Data, en próximos artículos abordaré, el ecosistema Big Data, para conocer las herramientas disponibles y su aplicación.

Forma parte de la comunidad #AlwaysLearning

¡Síguenos la pista!

Sobre el autor

Angel M. Rayo

Insights relacionados

¿Qué es Big data y para que sirve? Una introducción a Big data

Angel M. Rayo

Tabla de contenidos

Una introducción a Big data

Datos no estructurados, 95%

Big data con un crecimiento exponencial

¡Síguenos la pista!

Sobre el autor

Angel M. Rayo

Descubriendo Kanban: el Camino Evolutivo a la Agilidad Empresarial

¿Qué es la certificación en Power BI?

¿Qué es Legal Kanban?

¿Qué es la certificación en Azure?

Agile Coaching, del leading by believing al leading by trusting

Agile Coaching, from leading by believing to leading by trusting-EN

Flight Levels, un enfoque diferente para agilizar las organizaciones

Flight Levels, a different approach to streamlining organizations-EN

It’s raining, don’t catch a cold. Correlation or causation?

Está lloviendo, no te resfríes. ¿Correlación o causalidad?

Aprendizajes para el trabajo en equipo

Learnings for teamwork-EN

Por qué un Agile Coach tiene que formarse en Coaching

Potenciando tus habilidades como Agile Coach: entrenamiento a través de escenarios prácticos

Set it and forget it: La importancia de incorporar Check-Ins frecuentes a nuestros ciclos de OKR

Set it and forget it: The importance of incorporating frequent Check-Ins into our OKR cycles-EN

El viaje hasta las eCompetences

The journey to eCompetences-EN

Moonshots, Roofshots y Objetivos de Aprendizaje. ¿Qué tipo de OKRs deberías definir?

Moonshots, Roofshots and Learning Objectives: What kind of OKRs should you define?-EN

Qué es la agilidad, definiciones y conceptos para sentar las bases

Computational Thinking no es solo para soluciones tecnológicas

Computational Thinking is not only for technological solutions-EN

OKRs: ¿Qué son? y… ¿Por qué ahora?

OKRs: What are they? and... Why now?-EN

Guía para certificación ITIL® 4: gestiona tu futuro profesional

ITIL® 4 Certification Guide: manage your professional future-EN

Programa Profesional de Coaching: Experiencia en primera persona

Professional Coaching Program: Personal Experience-EN

Computational Thinking no es programación

Áreas

Netmind

¡Síguenos la pista!

Únete a nuestra comunidad #AlwaysLearning

Formación

SOLICITAR FORMACIÓN A MEDIDA

CONTÁCTANOS

Solicitar Información

Request Information