¿Es posible reducir el crimen con resolución de identidades? La respuesta es si. El Data science y en especial el entity resolution puede ser una herramienta de gran utilidad para los cuerpos de seguridad para combatir el crimen de forma muy eficiente. A continuación conocerás las principales razones por las cuales el entity resolution puede ser una clave importante para la seguridad.
Reducir el crimen con datos
El mundo entero contiene datos y es posible expresarlos de forma holística, completa y veraz, aunque provengan de diversas y dispares fuentes de datos. Los cuerpos de seguridad, acumulan datos, antecedentes, registros y otros datos útiles sobre sospechosos en el curso de una investigación. En la mayoría de los casos, estos datos son dispares e inconsistentes; lo que puede generar problemas de procesamiento, en especial si no contamos con una estructura flexible como los grafos para tratar estos datos.
Un sospechoso puede compartir datos con personas inocentes que ni siquiera tiene relación con un delito especifico, podemos lidiar con duplicidad de datos, que es un problema importante al analizar cantidades importantes de datos. Los sistemas de aprendizaje automatizado pueden ser entrenados para desarrollar procesos de entity resolution a partir de registros duplicados en un conjunto de datos a través de métodos de agrupación automatizada.
Entity Resolution mediante agrupación
Para poder tratar estos fallos, la policía o los analistas de datos especializados en combate del crimen pueden realizar una agrupación automatizada de registros duplicados. Esto es un proceso que conocemos como canonicalization. Esto es posible gracias a que se realiza la agrupación en base a una combinación por similitud, regresión logística y la aplicación de algoritmos de clusterización.
Para realizar un esquema de puntuación de similaridad o similitud, se pueden utilizar métodos de distancia de datos conocidos como distancia de Hamming, en la que definimos a la distancia como el número de modificaciones o cambios que debe sufrir un dato para que se produzca un registro alternativo. Esto permite evitar en gran medida la duplicación de datos en un registro.
Una vez definida la distancia entre los elementos que componen el grafo, es necesario decidir cómo serán ponderados todos los datos de los registros para que sean comparados. En este caso es importante decidir la importancia de cada dato para que los algoritmos de entrenamiento del Machine Learning aprovechan las características de la regresión que minimiza el error entre los datos y así poder establecer la valoración de los campos y determinar cuales registros se encuentran duplicados y cuales no. El proceso siguiente es aplicar los algoritmos de clusterización o agrupamiento para simplificar nuestros datos y analizarlos de forma más organizada.
Canonicalization de registros
Una vez organizada la información, detectados los datos duplicados dentro de las bases de datos de sospechosos, las autoridades en conjunto a sus equipos técnicos podrán tener acceso a datos valiosos sobre las personas que investigan y podrán descartar los datos innecesarios que perjudican el análisis. El éxito en este caso, se centra en mantener un registro clusterizado que permitirá enfocar el análisis sobre los datos relevantes de cada sospechoso, pudiendo con un dato especifico, identificarlos como seria en el mundo real.
Este registros almacenado en un grafo, adicionalmente nos permite actualizar e incorporar variables nuevas sobre nodos existentes o nuevos de forma fácil y eficiente. Al tener una visual clara sobre los datos, es más sencillo poder actuar a tiempo y no solo resolver casos delictivos, sino prevenirlos. La entity resolution aplicada a la lucha contra el crimen puede ser una solución que ayude a establecer patrones relevantes que optimicen los procesos de investigación.
Esperamos que esta información sea de utilidad para entender como el entity resolution puede ayudar a Reducir el crimen.
Visita más de Grapheverywhere para conocer todo lo que necesitas saber sobre entity resolution.