Tipos de datos en Big Data: clasificación por categoría y por origen

Ángel M. Rayo

Ángel M. Rayo

Tipos de datos en Big Data: clasificación por categoría y por origen

Compartir

Share on email
Share on facebook
Share on twitter
Share on linkedin
Share on pinterest

A la hora de crear proyectos Big Data que detecten, consuman, gestionen, organicen y presenten dichos datos de una manera optimizada y de forma que aporten algo a nuestro negocio generalmente nos enfrentamos a las siguientes preguntas:

  • ¿De dónde obtengo los datos?
  • ¿Qué datos aportan más información a mi negocio?
  • ¿Qué datos hay disponibles fuera de mi organización que me pueden ayudar?
  • ¿Qué volumen de datos tenemos que manejar?
  • ¿Qué formato tienen?
  • ¿Con qué frecuencia los utilizo?
  • ¿Cómo integrarlos en nuestro sistema de gestión?

Aunque todas estas preguntas son importantes, la más importante de todas es:

  • ¿Qué problema quiero resolver?

Si no tenemos claro el problema, no podemos plantearnos empezar a trabajar con datos para encontrar una solución.

Cuando hayamos localizado el problema que queremos resolver podremos plantearnos las preguntas iniciales y extraer información. El proceso de obtención de la misma a partir de los datos está reflejado en la famosa pirámide DIKW o pirámide del conocimiento, que relaciona cuatro componentes: DataInformationKnowledge Wisdow (Datos, Información, Conocimiento y Sabiduría).

Pirámide tipos de datos de big data

 

Ilustración 1: Pirámide DIKW

 

 

Tipos de datos de Big Data

La categorización de los datos es importante para cualquier proyecto, y en especial cuando vamos a trabajar con grandes volúmenes (Big Data).

Dos de las categorizaciones más utilizadas en Big Data suelen ser las que relacionan la estructura de los datos y las que dependen del origen de los mismos:

Tipos de datos de Big Data por categorías

Los tipos de datos se suelen organizar en 2 categorías principales:

Datos Estructurados

  • Creados: datos generados por nuestros sistemas de una manera predefinida (registros en tablas, ficheros XML asociados a un esquema)
  • Provocados: datos creados de manera indirecta a partir de una acción previa (valoraciones de restaurantes, películas, empresas (Yelp, TripAdvisor, …)
  • Dirigido por transacciones: datos que resultan al finalizar una acción previa de manera correcta (facturas autogeneradas al realizar una compra, recibo de un cajero automático al realizar una retirada de efectivo, …)
  • Compilados: resúmenes de datos de empresa, servicios públicos de interés grupal. Entre ellos nos encontramos con el censo electoral, vehículos matriculados, viviendas públicas, …)
  • Experimentales: datos generados como parte de pruebas o simulaciones que permitirán validar si existe una oportunidad de negocio.

No estructurados:

  • Capturados: datos creados a partir del comportamiento de un usuario (información biométrica de pulseras de movimiento, aplicaciones de seguimiento de actividades (carrera, ciclismo, natación, …), posición GPS)
  • Generados por usuarios: datos que especifica un usuario (publicaciones en redes sociales, vídeos reproducidos en Youtube, búsquedas en Google, …)

Multi-estructurados o híbridos:

  • Datos de mercados emergentes
  • E-commerce
  • Datos meteorológicos

Big data tipos de datos por categorías

 

Ilustración 2: Categorías 

Tipos de datos por origen de Big Data

Aunque no existe un criterio único para categorizar los tipos de datos lo más extendido es dividirlos en 5 grupos:

  • Web y Redes Sociales
    • Información sobre clicks en vínculos y elementos
    • Búsquedas en Google
    • RRSS (fuentes de datos de Twitter, publicaciones en Facebook, otras RRSS)
    • Contenido Web (páginas, imágenes, enlaces, etc.)
  • Comunicación entre máquinas
    • Lecturas RFID
    • Señales GPS
    • Otros sensores (parquímetros, máquinas expendedoras, cajeros, etc.)
  • Transacciones
    • Registros de comunicaciones (llamadas, mensajería, VoIP, etc.)
    • Registros de facturación (pagos con tarjeta, pago online, etc.)
  • Biométricos
    • Reconocimiento facial
    • Información genética (ADN)
  • Generados por personas
    • Grabaciones a operadores de atención al cliente
    • E-mail
    • Registros médicos electrónicos

Big data tipos de datos por origen

 

Ilustración 3: Orígenes

Conclusiones sobre los tipos de datos

Una vez hayamos conseguido identificar nuestras fuentes de datos y hayamos sido capaces de categorizarlos convenientemente podremos pasar a la siguiente fase que consistirá en definir qué mecanismos vamos a utilizar para poder convertirlos en Información útil siguiendo la pirámide DIKW.

Como dijo Clifford Paul Stoll, astrónomo y escritor: “Data is not information, information is not knowledge, knowledge is not understanding, understanding is not wisdom”.

Forma parte de la comunidad #AlwaysLearning

Sobre el autor

Ángel M. Rayo

Ángel M. Rayo

Angel M. Rayo, Lead Expert técnico de Netmind, es un ingeniero informático apasionado por la tecnología, el aprendizaje y compartir con otros lo que sabe. Tiene una amplia experiencia en el desarrollo de contenidos y formación sobre nuevas tecnologías y desarrollo de software. La experiencia técnica de Angel es aún más impresionante. Además de ser miembro del Consejo Asesor de Certificaciones de Microsoft y embajador del Instituto DevOps, es un experto en Cloud Computing autoproclamado en Azure, Alibaba, AWS y GCP. Su amplia lista de credenciales de certificación incluye Microsoft Certified Trainer, Azure Architect Expert, Certified Integrator in Secure Cloud Services, Certified Kubernetes Administrator (CKA) & Application Developer (CKAD), Alibaba Cloud Professional (y esta es la lista corta). ¡Conecta con Angel en LinkedIn y Twitter .!
Insights relacionados

SOLICITAR FORMACIÓN A MEDIDA

Por favor, proporciona la siguiente información para ayudarnos a personalizar la solución.

CONTÁCTANOS

Netmind España
Barcelona +34 933 041 720
Madrid +34 914 427 703

Nos puedes encontrar de:
Lunes – Viernes, 9:00-18:00 (GMT+1)

¡Te ayudamos!
[email protected]

¿Dudas sobre servicios/formaciones?
[email protected]

Solicitar Información