Amigos del Club de Ciencias Forenses, esta semana presentamos el artículo “Even big data is not enough: need for a novel reference modelling for forensic document authentication” de Garain, U. y Halder, B. (2019), en el que se expone un marco de modelado de referencia novedoso para la autentificación de documentos forenses, debido a la ineficacia del big data en algunos casos.

La documentoscopia es la rama de las ciencias forenses cuyo objetivo primordial es analizar diversos tipos de documentos en base a una variedad de métodos y procesos científicos.

Para autentificar (o verificar) un documento, los expertos seguramente necesiten muestras genuinas de los documentos correspondientes. Las muestras de referencia ayudan a los expertos a tener una idea sobre los aspectos distintivos que deben comprobarse en el documento en cuestión. Los expertos comprueban si las características de referencia se conservan naturalmente en la muestra, están falsificadas o están ausentes.

Con este fin, surgieron métodos forenses digitales y computarizados que aportaran objetividad, así como cierto rigor científico. Dichos métodos son combinados con el juicio y la decisión final del experto, por lo que es un proceso semiautomático. Con la disponibilidad de tantos datos, los investigadores han intentado desarrollar métodos basados en el aprendizaje automático para aplicaciones forenses.

Ahora bien, dentro de cada rama forense -la documentoscopia en este caso-, existen diferentes tipos de problemas o cuestiones. Por ejemplo: verificación de escritura y firmas, autentificación de elementos de seguridad en documentos como billetes bancarios… Estos se consideran como un problema de clasificación dada la disponibilidad de suficientes muestras específicas de cada clase. No obstante, esto no siempre puede entenderse así.

En el caso de la documentoscopia, es posible que tengamos muestras (algunas o muchas) para el documento de referencia. Sin embargo, puede que no tengamos ninguna (o muy pocas muestras) para documentos falsificados. Consecuentemente, si algún algoritmo de aprendizaje automático se entrena con estos datos disponibles para documentos genuinos y falsos, sufriría un problema de desequilibrio de datos.

Para solventar esta situación, el problema debería verse como uno de modelado de referencia. Este último debe entenderse como una forma de representar las partes componentes de cualquier idea, con una ontología específica. Esta consiste en un conjunto interconectado de conceptos claramente definidos y producidos por expertos.

Con este fin, los autores proponen un modelado basado en la distancia Mahalanobis. Esta medida de distancia es muy sensible a los cambios entre variables en los datos. Es, por tanto, muy útil para determinar la similitud de un conjunto de valores conocido con el de un conjunto desconocido. Así, se construye una escala de medición multivariable utilizando la distancia de Mahalanobis.

En el modelado de referencia, el espacio de Mahalanobis se obtiene utilizando las muestras de referencia (normales). Las variables o características se obtienen de los expertos forenses. Para los documentos de seguridad, estas variables corresponderían a las características de seguridad integradas en dichos documentos. Una vez que se construye el espacio de Mahalanobis, se puede utilizar para discriminar entre muestras de referencia (genuinas o normales) y falsificadas (falsas o anormales).

Una de las técnicas más utilizadas contra la falsificación de documentos impresos de seguridad es la microimpresión. Se trata de pequeños textos o líneas que son imperceptibles a simple vista. El texto a menudo se oculta en un área imperceptible del documento. Las líneas aparecen como patrón predominante en todo el documento; entre estas pueden existir patrones regulares o irregulares.

La falsificación de documentos de seguridad basados en microimpresiones puede ocurrir de varias formas. Hay dos atributos importantes con respecto a la autentificación de documentos de seguridad basados en líneas de microimpresión. Estos son el diseño de ilustraciones y el color (o tinta). Cabe indicar que la impresora y el papel también forman parte de los atributos de seguridad de dichos documentos.

Así las cosas, con el fin de evaluar el modelado de referencia, los autores escogieron en su investigación 100 cheques bancarios como muestras de referencia de los documentos de seguridad. Así, distinguieron el grupo 1 (con las muestras reales) y el grupo 2 (con muestras falsificadas) con otros 100 cheques. En total, se utilizaron 7 atributos o características para medir la distancia de Mahalanobis y distinguir entre muestras reales y falsificadas. Originalmente, se incluyeron 10 atributos, pero se quitaron 3 de ellos al dar un valor negativo en los resultados del modelado, no siendo adecuados para distinguir entre ambos grupos.

Asimismo, los resultados de la investigación sugirieron que, si el número de muestras disponibles es suficiente tanto para los documentos reales como -sobretodo- falsificados, el enfoque basado en redes neuronales superará al modelado de referencia. Este requisito del número suficiente de muestras falsificadas hace que muchos algoritmos de aprendizaje automático, como la red neuronal, no sean muy adecuados para la autentificación forense.

En las situaciones en las que no se cumple dicho requisito, el modelado de referencia utilizando la distancia de Mahalanobis podría proporcionar un marco viable alternativo. Por otro lado, se diseñó una tarea de autentificación basada en el conjunto de datos de ICPR 2018. Este último aborda dos tareas: detectar documentos falsificados y detectar esas falsificaciones. Aunque la detección de documentos falsificados es buena, se necesita más investigación para localizar las falsificaciones con mayor precisión.

La tarea diseñada por los autores tenía como objetivo la autentificación de características, si son falsas o genuinas. Concretamente, consideraron dos: las características de color y a nivel físico (por ejemplo, la rugosidad del borde). En general, los resultados mostraron que la tarea de autentificación y la distancia de Mahalanobis superaban a la red neuronal. El desempeño de esta última mejora con el mayor número de datos disponibles tanto para documentos reales como falsificados.

En el futuro, la investigación debería centrarse en el desarrollo de enfoques nuevos para el modelado de referencia. El desafío también radica en aplicar los avances recientes en algoritmos de aprendizaje profundo. Sin embargo, al aplicar cualquier técnica semejante, debemos tener cuidado con que los expertos forenses trabajen con características explicables. Otra dirección puede ser hacer predicciones sobre muestras falsificadas a partir de muestras de referencia.

Si quieres saber más sobre documentoscopia, técnicas de investigación criminal y el ámbito de las Ciencias Forenses no te pierdas nuestro Máster en Pericia Caligráfica y Documentoscopia o nuestro Experto Universitario en Investigación Criminológica, programa 100% online y certificado por la Universidad a Distancia de Madrid, con becas especiales para lectores del Club Forenses.