Retos de la calidad de datos

Los retos de la calidad de datos son diversos y con la evolución de los procesos tecnológicos crecen de forma rápida haciendo cada vez más compleja la gestión, el análisis y los procesos de toma de decisiones dentro de las organizaciones. Para comprender de forma integral las dificultades que enfrentamos para gestionar de forma correcta nuestros datos y obtener información valiosa, recorreremos primero los problemas que afectan a la calidad de datos y posteriormente estudiaremos los retos a los que debemos hacer frente.

Que afecta a la calidad de datos

Obtener datos limpios dentro de un entorno donde convergen diferentes tipos de estructuras de datos demanda sortear ciertas dificultades porque confluyen diversas fuentes, dispositivos y/o formatos en los que pueden existir problemas de integración. Es normal actualmente encontrar miles de datos que no estén limpios o que se encuentren contenidos sin estructura alguna o con estructuras parciales. Esto ocasiona problemas dentro de los sistemas de calidad debido a que la mayoría de los sistemas de análisis requieren una entrada de datos manual donde si la información no se encuentra totalmente ceñida a un parámetro, puede exponerse a errores humanos.

La calidad de datos se enfrenta principalmente a efectos adversos sin no se garantizan buenos niveles de calidad. Uno de estos problemas que se pueden generar son los datos oscuros. En estos casos los datos se recopilan, procesan y almacenan como parte de las actividades cotidianas de una organización, pero no se les asigna un rol analítico o un fin adicional. Su existencia dentro de los almacenes de datos nos permite entender que los sistemas de calidad de datos no son óptimos ya que perdemos recursos importantes en datos que no utilizaremos.

También podemos encontrar lo que conocemos como datos sucios. Los datos sucios son un problema grave de calidad, en especial si trabajamos con datos concentrados en nube. Los datos sucios pueden obligar a las estructuras organizacionales a asumir costos económicos reales causados por acciones automáticas programadas que dan inicio con datos no válidos. Por último un problema puede llegar a ser importante son los datos no estructurados. Estos datos están siempre disponibles pero puede que no estén preparados para ser utilizados. Puede que sea necesario invertir tiempo y recursos para que los datos sean compatibles con el sistema de consumo de datos.

Desafíos de la calidad de datos

En el contexto actual del mundo tecnológico todos los aspectos están ligados al Big Data, así que los principales desafíos que debemos asumir ante la calidad de datos esta ligada a cumplir los parámetros del Big Data. Nuestras estructuras de datos deben ser veloces. La velocidad de generación de los datos puede dificultar la medición de la calidad de los datos. Si la velocidad de generación de los datos es muy superior a la capacidad de procesamiento puede que al momento de estudiar los datos, estos ya sean obsoletos.

Otro de los desafíos importantes que debemos enfrentar es la variedad de datos. En el mundo del Big Data se adoptan todo tipo de datos. Al recibir y procesar datos de diferentes estructuras y pesos, puede alterar la calidad de los datos. Se pueden generar métricas de datos inadecuadas dentro de las recopilaciones, haciendo necesario que se trabaje con métricas múltiples que hagan más complejos los procesos de análisis a diferencia de datos totalmente estructurados.

En cuanto al volumen de los datos, es difícil realizar una evaluación de gran alcance, así que es fundamental definir métricas de calidad en función de los atributos particulares de cada proyecto. De esta forma podemos estudiar las variables importantes.

Adicionalmente a los conceptos antes expuestos tenemos que tomar en cuenta como variables fundamentales el valor y la veracidad de los datos. En cuanto al valor debemos entender que todo valor es útil siempre tenga un propósito final y esto nos lleva a plantear que si el beneficio de la calidad es superior al costo de la mejora, valdrá la pena tomarlo en cuenta dentro de las reestructuraciones futuras. Por su parte la veracidad esta directamente relacionada con los problemas que afectan los productos del análisis. Es decir, si los datos poseen un sesgo o falta de consistencia, estos no serán totalmente útiles para la finalidad con la que han sido recolectados.

Esperamos que esta información sea de utilidad para comprender los retos que enfrentamos al aplicar calidad de datos.

Visita más de Grapheverywhere para conocer todo lo que necesitas saber sobre calidad de datos.

Share This