En el post anterior hablamos de que la primera pregunta que se tiene que responder en un proyecto Big Data es “¿Qué problema quiero resolver?” Para poder hacerlo tenemos que subir por la pirámide DIKW un nivel de cara a transformar un gran volumen de datos en información útil para nuestro negocio. El proceso de inspeccionar, limpiar, transformar y modelar datos con el fin de descubrir esa información útil que necesitamos se conoce como Análisis de Datos.
Al realizar este análisis obtendremos, además de información de utilidad, sugerencias y conclusiones que nos ayudarán en la toma de decisiones.
Tipos de Análisis de Datos
Podemos distinguir diferentes tipos de análisis de datos en función de cuál sea nuestro objetivo al realizarlo.
- Si queremos saber Cómo actuar nos encontraremos con un Análisis Prescriptivo.
- Si queremos saber Qué sucederá tendremos un Análisis Predictivo.
- Si queremos saber Por qué ha sucedido estaremos ante un Análisis de tipo Diagnóstico.
- Si queremos saber Qué hacer para que suceda tendremos un análisis Descriptivo.
Información sobre las Fases del Análisis de Datos
Los diferentes tipos de análisis tienen siguen un conjunto de fases comunes que permitirán ayudar a la toma de decisiones como os he comentado anteriormente.
Estas decisiones no tendremos que tomarlas como dogma de fe sobre todo por un motivo, los análisis de datos no garantizan al 100% que obtengamos los resultados esperados. Por ese motivo tendremos que ir refinando y actualizando las fuentes de datos y las actividades que realizamos para acercarnos más al valor esperado.
Os pongo un ejemplo:
Juan comienza a trabajar un martes en su nueva oficina a las 8:00 y como no sabe lo que va a tardar sale a las 7:00 de casa y llega a las 7:40. Como ha llegado con tiempo suficiente decide salir 10 minutos más tarde el miércoles, el jueves y el viernes llegando respectivamente a las 7:50, 7:45 y 7:55 por lo que siempre llega en hora. Juan ya tiene información de cuánto ha tardado en llegar (40, 40, 35 y 45 minutos) por lo que decide salir el lunes a las 7:10 también pensando que va a llegar sin problema y llega a la oficina a las 8:30.
¿Qué ha sucedido?
La experiencia de ir a la oficina de Juan utiliza solamente 4 muestras (martes, miércoles, jueves y viernes) por lo que haciendo un análisis predictivo estima que debería tardar una media de 40 minutos.
¿Qué sucede ahora?
Juan hará un análisis de tipo diagnóstico para saber por qué no se ha cumplido su objetivo de llegar antes de las 8:00. En este análisis Juan detecta que no ha tenido en cuenta una serie de factores que afectan al tiempo que tarda en llegar a la oficina:
- Día de la semana
- Situación del tráfico (accidente, obra u otra situación)
- Otros factores: Climatología, vuelta de vacaciones, huelga de transporte público
En esta situación Juan irá añadiendo nuevos condicionantes a su análisis ajustando cada día más el tiempo que tarda siempre teniendo en cuenta que hay factores en los que no puede influir (accidentes, huelgas, clima) y factores en los que sí (ruta a seguir, salir antes, ir en transporte público). Esto sería actualizar sus fuentes de datos.
Según vaya añadiendo dichos condicionantes mejorará sus “predicciones”.
8 fases de datos de big data
Tanto Juan como nosotros tendremos que seguir el proceso de Análisis de datos, compuesto por las siguientes fases:
- Requisitos de datos
- Obtención de datos: partiendo de las fuentes de datos y tipos de datos (estructurados, no estructurados, etc.)
- Procesado de datos: separación, agrupación, filtrado.
- Limpieza de datos: eliminar duplicados, errores.
- Análisis exploratorio de datos: tendencias, histogramas para detectar grupos, gráficos
- Modelado y algoritmos: datos estadísticos (medias, modas, desviaciones, máximos, mínimos), regresión, pruebas-t y pruebas-z.
- Producto de datos: aplicación a medida, documento Excel, PowerBI, Reporting Services, informe QlikView, PeriscopeData, etc.
- Comunicación / visualización de datos: informes por audiencia (comerciales, marketing, estrategia, dirección, técnicos, etc).
Conclusión
Si tener buenas fuentes de datos empresariales es importante (ERP, bases de datos, repositorios, documentación, etc.) también lo es realizar un buen análisis de datos sabiendo qué respuestas queremos obtener.
Todas las empresas tienen fuentes de datos empresariales, pero no todas son capaces de analizar todos esos datos para mejorar su negocio. Hoy en día, una empresa que no haga un buen análisis de datos está condenada a desconocer su futuro o a tomar decisiones que permitan amortiguar una posible caída en las ventas, la satisfacción de los clientes o los productos y servicios que ofrece a sus clientes.
Como dijo William Edwards Demming, estadístico, profesor universitario, consultor y difusor del concepto de calidad total “In God we trust. All others must bring data.” (En Dios confiamos. El resto debe traer datos).