Introducción
En un artículo anterior, te contamos porqué es importante tener información de calidad para implementar una estrategia basada en datos. Contar con un repositorio de "información dorada" permite generar hallazgos valiosos y con un alto nivel de confianza, lo que se traduce en mejores resultados para las organizaciones.
En esta ocasión, revisaremos qué es el perfilamiento de datos de una forma sencilla y sin tecnicismos. También queremos mostrarte por qué deberías considerarlo como el punto de partida para cualquier estrategia de calidad de datos en tu organización.
Escrito por
Alfredo Paredes
¿Que es Perfilamiento de Datos?
El data profiling, consiste en analizar los datos de una manera similar a como un profesional de la salud revisa una radiografía, identificando problemas y evaluando si se cumplen las condiciones mínimas para que esta información sea útil:
- Consistencia: La información presentada es veraz.
- Actualidad: Se trata de información reciente. Esto es particularmente importante para datos que suelen cambiar con el tiempo, como por ejemplo dirección, teléfono y edad.
- Unicidad: No existe información duplicada o que esté presente en mas de un lugar.
- Precisión: Los datos son exactos.
Estas características, que a simple vista pueden parecer conceptos abstractos, se evalúan aplicando criterios de evaluación de acuerdo a cada tipo de datos, entre los que se encuentran:
- Valores nulos: Búsqueda de campos sin valor. Por ejemplo: clientes sin dirección, fecha de nacimiento, apellidos, etc.
- Formato: Evalúa si un valor cumple con ciertas características. Por ejemplo: Si se trata de un email, esperaríamos que todos sus valores cumplan con un patrón del tipo usuario@sitio.dominio. En el caso del número de teléfono, buscaríamos al menos cierta cantidad de dígitos o que esté en formato internacional (tal como se usa en whatsapp).
- Valores fuera de rango: Busca inconsistencia en los valores que un campo debe tener. Por ejemplo: Fechas de nacimiento en el futuro o edad negativa.
- Referencia inválida: Busca valores que si bien cumplen el formato y rango de valores, pueden ser inconsistentes. Por ejemplo: Cliente bancario asignado a un ejecutivo válido pero que ya no pertenece a la institución.
- Registros duplicados: Identifica valores repetidos para atributos que deberían ser unívocos. Por ejemplo el número de identificación o pasaporte.
A continuación, te mostraremos 3 ventajas de realiza un proceso de data profiling, y un Bonus Track con sugerencias para un dashboard resumido de calidad de datos.
1. Define el Punto de Partida
Cualquiera sea el camino de tu organización, hacia donde se dirija dependerá de una brújula construida en base a datos. Marcos de trabajo como el Balace Scorecard, CRM Analítico y Business Intelligence, basan sus decisiones en datos para "tomarle el pulso" a la organización y avanzar a paso seguro.
Hasta aquí, sabemos cual es la meta y tendremos nociones de qué herramientas necesitamos para llegar a ella. Lo que no sabemos es nuestro punto de partida. Si tenemos información de calidad, recorreremos un camino mucho mas corto que si nuestros datos están lejos de ser útiles para tomar decisiones.
Perfilar los datos nos permite conocer el nivel inicial de calidad y determinar si es suficiente para cumplir metas y objetivos.
Por ejemplo: Queremos contactar a todos nuestros clientes para fidelizarlos y sabemos que el 1% de ellos no registró un correo válido. Aún podríamos tener resultados interesantes si llevamos a cabo esta campaña. En cambio, un 50% de correos mal ingresados impactaría directamente en el resultado. Son dos escenarios completamente diferentes.
2.Orienta el Proceso
Derivado de lo anterior, podemos definir un roadmap realista en el cual, desde un punto inicial, se desarrollen las iniciativas necesarias para llegar al objetivo.
El circulo virtuoso de calidad de datos, inicia con un profiling completo de sus fuentes, aplicando reglas de corrección retroactivas en función de las prioridades del negocio y de los atributos que lo necesiten.
Un atributo con problemas graves puede ser el foco inicial en un proyecto de calidad de datos, también lo pueden ser aquellos atributos que sean relevantes para ejecutar campañas de marketing u otra necesidad de negocio de alta visibilidad.
Una vez hecha la corrección retroactiva de datos, inicia un proceso de replicación de reglas de validación en los sistemas fuente, que impida que se produzcan los mismos problemas al ingresar nuevos datos. Por ejemplo, si detectamos que existen direcciones de correo ingresadas sin @ o sin dominio, podemos solicitar que este formato sea obligatorio al momento de ingresar un nuevo cliente en CRM. De esta manera podemos enfocarnos en repetir este proceso para otros datos y fuentes.
El Rol de datamaster cobra particular importancia ya que es el "Sheriff de la calidad de datos", el punto medio entre TI y el negocio y quien coordina este proceso tanto con los dueños de los datos como con quienes soportan las arquitecturas tecnológicas.
A continuación, presentamos un modelo de arquitectura de datos basado en la utilización de herramientas de Data Quality, un Datalake como repositorio central y una capa de consumo utilizando Infor Birst como herramienta de visualización.
3. Entrega un Parámetro de Control
Realizar un análisis inicial utilizando data profiling, permite cuantificar el nivel de calidad real, algo que al comenzar este proceso era algo abstracto. Esto permite definir un punto de control e incluso una meta a la cual llegar.
Algunos parámetros de control generales pueden ser los siguientes:
- Antigüedad del dato: Existen datos que poco a poco van perdiendo su utilidad. Es mucho mas probable que pueda contactar a una persona que me acaba de dar su número de teléfono que a una que lo hizo hace 5 años. Es posible que su teléfono ya no exista o que sea menos receptivo con el mensaje que le quiero entregar. Existe información que "se evapora" con el tiempo y tenemos que saber cual es el límite tolerable. La fecha de nacimiento de una persona no va a cambiar, pero otros datos como email, teléfono, dirección, cuentas de redes sociales, es posible que se vean modificados con el tiempo.
- Valores erróneos: Cuantifica cuantos valores en total tienen algún problema de calidad. Por ejemplo, si 100 clientes tienen problemas en 2 datos cada uno, el total de valores erróneos es de 200.
Además, para cada atributo es importante conocer los siguientes indicadores:
- % Datos Duplicados: Indica cuantos problemas de duplicidad están presentes en el universo de datos.
- % Valores Blancos: Porcentaje de atributos sin valor. Por ejemplo: Dirección o nacionalidad sin valor.
- % Valores Fuera de Rango: % de valores fuera de un rango definido. Aplica mayormente a valores numéricos como edad, importe y fecha.
- % Valores Sin Formato: % de valores fuera de sintaxis. Ej: Correo electrónico, numero de teléfono.
- % Valores Inconsistentes: % de valores con datos que si bien son válidos, no representan la realidad.
Bonus Track
Si contamos con parámetros de control de calidad de datos, te proponemos un dashboard como el siguiente, que resume en un solo lugar el estado general e indicadores por cada atributo. Este dashboard fue desarrollado utilizando Infor Birst.
