Análisis de Datos en Big Data: tipos y fases del análisis

Ángel M. Rayo

Ángel M. Rayo

Análisis de Datos en Big Data: tipos y fases del análisis

Compartir

Share on email
Share on facebook
Share on twitter
Share on linkedin
Share on pinterest

En el post anterior hablamos de que la primera pregunta que se tiene que responder en un proyecto Big Data es «¿Qué problema quiero resolver?» Para poder hacerlo tenemos que subir por la pirámide DIKW un nivel de cara a transformar un gran volumen de datos en información útil para nuestro negocio. El proceso de inspeccionar, limpiar, transformar y modelar datos con el fin de descubrir esa información útil que necesitamos se conoce como Análisis de Datos.

Pirámide DIKW de análisis de datos big data

Al realizar este análisis obtendremos, además de información de utilidad, sugerencias y conclusiones que nos ayudarán en la toma de decisiones.

Tipos de Análisis de Datos

Podemos distinguir diferentes tipos de análisis de datos en función de cuál sea nuestro objetivo al realizarlo.

  • Si queremos saber Cómo actuar nos encontraremos con un Análisis Prescriptivo.
  • Si queremos saber Qué sucederá tendremos un Análisis Predictivo.
  • Si queremos saber Por qué ha sucedido estaremos ante un Análisis de tipo Diagnóstico.
  • Si queremos saber Qué hacer para que suceda tendremos un análisis Descriptivo.
Tipos de análisis de datos prescriptivo y predictivo

Información sobre las Fases del Análisis de Datos

Los diferentes tipos de análisis tienen siguen un conjunto de fases comunes que permitirán ayudar a la toma de decisiones como os he comentado anteriormente.

Estas decisiones no tendremos que tomarlas como dogma de fe sobre todo por un motivo, los análisis de datos no garantizan al 100% que obtengamos los resultados esperados. Por ese motivo tendremos que ir refinando y actualizando las fuentes de datos y las actividades que realizamos para acercarnos más al valor esperado.

Os pongo un ejemplo:

Juan comienza a trabajar un martes en su nueva oficina a las 8:00 y como no sabe lo que va a tardar sale a las 7:00 de casa y llega a las 7:40. Como ha llegado con tiempo suficiente decide salir 10 minutos más tarde el miércoles, el jueves y el viernes llegando respectivamente a las 7:50, 7:45 y 7:55 por lo que siempre llega en hora. Juan ya tiene información de cuánto ha tardado en llegar (40, 40, 35 y 45 minutos) por lo que decide salir el lunes a las 7:10 también pensando que va a llegar sin problema y llega a la oficina a las 8:30.

¿Qué ha sucedido?

La experiencia de ir a la oficina de Juan utiliza solamente 4 muestras (martes, miércoles, jueves y viernes) por lo que haciendo un análisis predictivo estima que debería tardar una media de 40 minutos.

¿Qué sucede ahora?

Juan hará un análisis de tipo diagnóstico para saber por qué no se ha cumplido su objetivo de llegar antes de las 8:00. En este análisis Juan detecta que no ha tenido en cuenta una serie de factores que afectan al tiempo que tarda en llegar a la oficina:

  • Día de la semana
  • Situación del tráfico (accidente, obra u otra situación)
  • Otros factores: Climatología, vuelta de vacaciones, huelga de transporte público

En esta situación Juan irá añadiendo nuevos condicionantes a su análisis ajustando cada día más el tiempo que tarda siempre teniendo en cuenta que hay factores en los que no puede influir (accidentes, huelgas, clima) y factores en los que sí (ruta a seguir, salir antes, ir en transporte público). Esto sería actualizar sus fuentes de datos.

Según vaya añadiendo dichos condicionantes mejorará sus “predicciones”.

8 fases de datos de big data

Tanto Juan como nosotros tendremos que seguir el proceso de Análisis de datos, compuesto por las siguientes fases:

  1. Requisitos de datos
  2. Obtención de datos: partiendo de las fuentes de datos y tipos de datos (estructurados, no estructurados, etc.)
  3. Procesado de datos: separación, agrupación, filtrado.
  4. Limpieza de datos: eliminar duplicados, errores.
  5. Análisis exploratorio de datos: tendencias, histogramas para detectar grupos, gráficos
  6. Modelado y algoritmos: datos estadísticos (medias, modas, desviaciones, máximos, mínimos), regresión, pruebas-t y pruebas-z.
  7. Producto de datos: aplicación a medida, documento Excel, PowerBI, Reporting Services, informe QlikView, PeriscopeData, etc.
  8. Comunicación / visualización de datos: informes por audiencia (comerciales, marketing, estrategia, dirección, técnicos, etc).
Fases del análisis de datos en big data

Conclusión

Si tener buenas fuentes de datos empresariales es importante (ERP, bases de datos, repositorios, documentación, etc.) también lo es realizar un buen análisis de datos sabiendo qué respuestas queremos obtener.

Todas las empresas tienen fuentes de datos empresariales, pero no todas son capaces de analizar todos esos datos para mejorar su negocio. Hoy en día, una empresa que no haga un buen análisis de datos está condenada a desconocer su futuro o a tomar decisiones que permitan amortiguar una posible caída en las ventas, la satisfacción de los clientes o los productos y servicios que ofrece a sus clientes.

Como dijo William Edwards Demming, estadístico, profesor universitario, consultor y difusor del concepto de calidad total “In God we trust. All others must bring data.” (En Dios confiamos. El resto debe traer datos).

Forma parte de la comunidad #AlwaysLearning

Sobre el autor

Ángel M. Rayo

Ángel M. Rayo

Angel M. Rayo, Lead Expert técnico de Netmind, es un ingeniero informático apasionado por la tecnología, el aprendizaje y compartir con otros lo que sabe. Tiene una amplia experiencia en el desarrollo de contenidos y formación sobre nuevas tecnologías y desarrollo de software. La experiencia técnica de Angel es aún más impresionante. Además de ser miembro del Consejo Asesor de Certificaciones de Microsoft y embajador del Instituto DevOps, es un experto en Cloud Computing autoproclamado en Azure, Alibaba, AWS y GCP. Su amplia lista de credenciales de certificación incluye Microsoft Certified Trainer, Azure Architect Expert, Certified Integrator in Secure Cloud Services, Certified Kubernetes Administrator (CKA) & Application Developer (CKAD), Alibaba Cloud Professional (y esta es la lista corta). ¡Conecta con Angel en LinkedIn y Twitter .!
Insights relacionados

SOLICITAR FORMACIÓN A MEDIDA

Por favor, proporciona la siguiente información para ayudarnos a personalizar la solución.

CONTÁCTANOS

Netmind España
Barcelona +34 933 041 720
Madrid +34 914 427 703

Nos puedes encontrar de:
Lunes – Viernes, 9:00-18:00 (GMT+1)

¡Te ayudamos!
[email protected]

¿Dudas sobre servicios/formaciones?
[email protected]

Solicitar Información