Estamos realizando algunos cambios en el site. Si ve algún error en la página, vuelva más tarde.

¿Qué es Big data y para que sirve? Una introducción a Big data

¿Qué és Big data y para que sirve?, son algunas de las preguntas habituales cuando nos acercamos a esta tecnología. En esta introducción a Big data esperamos sacar de dudas.

Una introducción a Big data

Big Data nació con el objetivo de cubrir unas necesidades no satisfechas por las tecnologías existentes, como es el almacenamiento y tratamiento de grandes volúmenes de datos que poseen unas características muy concretas definidas como las tres V’s (puede haber más):

  • Volumen, hace referencia al tamaño de los datos que pueden provenir de múltiples fuentes.
  • Velocidad, define la rapidez con que llegan los datos usando unidades como tera, peta o exa bytes
  • Variedad, hablamos de datos:
    • Estructurados
    • Semi-estructurados
    • No estructurados

Una característica importante acerca de los datos, es que son considerados como la fuente de la verdad, es decir, no se alteran durante su tratamiento. La tecnología subyacente en Big Data es Apache Hadoop, en la actualidad cuenta con ocho años de historia, ¿pero qué es Hadoop?

Hadoop es un sistema operativo distribuido que permite procesar en paralelo grandes volúmenes de datos, sobre un hardware convencional.

Es un tipo de sistema operativo especial, ya que trabaja sobre otro como Linux o Windows (utilizando la implementación de Hortonworks). Posee las siguientes características:

  • Escalable, permite crear estructuras en cluster, a las que se les puede añadir
    nuevos nodos fácilmente.
  • Flexible, se adapta a múltiples formatos de datos, puede utilizar o no esquemas para
    tratar información y permite que los usuarios lo usen en diferentes niveles.
  • Fiable, ha sido diseñado, teniendo en cuenta que el hardware y software pueden fallar.
  • Rápido y lento, es muy rápido para tratar grandes cantidades de datos, pero puede
    ser lento al trabajar con poca información.

Una pregunta que siempre nos asalta al principio, ¿es si no son suficientes las bases de datos relacionales RDBMS?, la respuesta es que hacen tareas diferentes y que una no excluye a la otra, son complementarias.

Datos no estructurados, 95%

Hadoop cubre un área muy importante, como es el tratamiento de datos no estructurados, normalmente los que no son almacenados en bases de datos convencionales, pero que algunos estudios cifran en el 95% de los datos producidos por una empresa.

Probablemente donde aparecen más dudas, es al plantearnos a quién va dirigida esta tecnología. Si pensamos en grandes volúmenes de datos, existen un gran número de empresas que han retirado su histórico de datos, porque era inviable su tratamiento con las tecnologías convencionales, como banca, seguros, centros de investigación, pero aparecen nuevas necesidades derivadas del tratamiento de datos asociados a las redes sociales, ya que muchas empresas han realizado una importante inversión en ellas, este hecho, abre el mercado de Big data a un amplio abanico de empresas que en la actualidad, no realizan un análisis de datos, y por ello, pierden la oportunidad de mejorar o generar nuevas líneas de negocio.

Lo que en principio, parecía una tecnología dirigida a empresas con altísimos volúmenes de datos, va asentándose la idea de que también puede aplicarse a pequeñas y medianas empresas, con unas necesidades muy concretas.

Big data con un crecimiento exponencial

Tengamos en cuenta que actualmente el ritmo de crecimiento de los datos es exponencial, de esta manera, es lógico pensar en nuevas herramientas que nos ayuden en el tratamiento de estos silos de información, que pueden provenir de múltiples y diferentes canales, como:

  • Histórico de datos, datos acumulados durante años, que pueden arrojar
    estadísticas y tendencias muy representativas
  • Redes sociales, muy útiles si podemos filtrar y analizar el feedback de
    nuestros clientes y proveedores.
  • ClickStream, conocer la navegación y el uso que hacen nuestros clientes de nuestro sistio web.
  • Sensores, pueden llegar a generar auténticas montañas de datos para evaluar.
  • Dispositivos móviles, la incorporación de los mismos a las estructuras
    empresariales siguiendo BYOD (Bring Your Own Device).
  • Internet, es una poderosa herramienta si somo capaces de organizar
    la información que necesitamos.

Al plantearnos la necesidad de llevar a cabo una implantación de big data, debemos tener en cuenta que por un lado dispondremos de una solución para nuestros datos estructurados (RDBMS convencional) y no estructurados o semi (Hadoop) y que necesitaremos dar respuesta al análisis de datos, para ello el ecosistema Big data dispone de múltiples soluciones, algunas de bajo nivel y otras que nos abstraen de esa complejidad, pero que necesitaremos responder.

Así termina una introducción a Big Data, en próximos artículos abordaré, el ecosistema Big Data, para conocer las herramientas disponibles y su aplicación.

Sobre el autor

Picture of Angel M. Rayo

Angel M. Rayo

Únete a nuestra comunidad #AlwaysLearning

Formación

  • Sensibilización en la importancia de las e-Competences
  • Capacitación Técnica y en Gestión de la Tecnología
  • Formación a medida
  • Adaptación de contenidos propios a formación presencial y online
Buscar

Solicitar Información

Request Information