Amigos del Club de Ciencias Forenses, esta semana presentamos el resumen del estudio “Skeletal age -at-death estimation: Bayesian versus regressions methods” de Nikita y Nikitas; en él hacen una comparativa sobre los dos métodos para determinar la edad en el momento de la muerte, la aproximación bayesiana o el método de regresión.

Establecer la edad de fallecimiento basado en el esqueleto es importante, tanto en antropología forense como en la bioarqueología. En el primero de estos campos ayuda a establecer el perfil biológico del individuo y su identificación. En la bioarqueología nos da información del pasado biológico y contribuye al estudio de la patología, la actividad y otros marcadores del esqueleto de la vida del individuo.

Se han propuesto varios métodos para estimar la edad en restos de adultos. Casi todos los métodos utilizan una muestra que debe ser representativa de la población de referencia. Después se establecen relaciones entre la edad cronológica y los marcadores de edad a través de los métodos de regresión o el enfoque bayesiano. Estas relaciones son las que se utilizan para establecer la edad de muerte en la muestra objetivo. Este procedimiento y en concreto el uso de método de regresión ha sido criticado, ya que la edad está sesgada por el perfil demográfico de la muestra utilizada, técnicamente el método bayesiano se desarrolló para minimizar ese problema.

En este estudio se han utilizado dos técnicas para incorporar el perfil demográfico de la muestra utilizada en el análisis regresivo. La primera de ellas es usar factores de ponderación adecuados tomados del perfil demográfico de la muestra objetivo o de una muestra que tenga un perfil similar. La segunda es crear, basándose en la muestra original, una nueva muestra hipotética con un perfil demográfico similar al de la muestra objetivo.

El método bayesiano para la estimación de la edad de fallecimiento fue desarrollado por Konigsberg et al. Calculó la probabilidad condicional Pr(aǀc) de que los restos óseos provinieran de individuos que murieron en la edad = a dado que se observa el marcador de edad c a través del teorema de Bayes:

Donde Pr(aǀc) es la probabilidad de observar el marcador de la edad r en un individuo que ha muerto en la edad a. f(a) es la distribución de la edad de fallecimiento en la población de referencia llamada información previa y shift es la edad mínima en información previa. Esta información era:  la muestra objetivo, la muestra de entrenamiento y la muestra con perfil demográfico uniforme.

La f(a) de la información previa se estima con la ecuación que parte de la estimación del ratio de mortalidad y del de supervivencia aplicando la función del modelo de Gomplertz- Makeham. Las probabilidades condicionales Pr(aǀc) se obtienen utilizando el análisis de transición. Hay que tener en cuenta que la Pr(aǀc) se calcula como función de densidad de probabilidad. La edad de la muerte de un individuo con el marcador de edad c corresponde a la posición del pico de la curva de esta función.

En el presente estudio se utilizó como material datos artificiales, donde los marcadores de edad mostraban una expresión de ocho grados. Se generaron muestras aleatorias de edades comprendidas entre los 18 y los 85 años. El perfil demográfico de las muestras se basa en la distribución por edades de Gilbert, en la de Terry y en las tablas de vida inglesa número 17. Para las muestras de entrenamiento se crearon muestras con edades que siguen la distribución uniforme de Los Balcanes.  A cada edad se le adjuntó un marcador de edad determinado. Las muestras de entrenamiento se generaron con el tamaño de 50,100,200 y 500. Para las muestras objetivo se utilizó el tamaño de menos de 500 para evitar fluctuaciones en las predicciones. Para cada muestra de entrenamiento se generaron siete muestras objetivo. En total se obtuvo 588 sistemas de datos artificiales, aunque solo se utilizaron 532 por problemas computacionales.

Se utilizaron varios criterios para probar el funcionamiento de los modelos de estimación de edad de la muerte:

  1. Coeficiente de correlación de Pearson entre la edad original y la edad estimada.
  2. El error estándar de estimación (SEE):
  3. El porcentaje de casos en los que la edad de muerte original cayó dentro de un cierto intervalo alrededor de la edad promedio de muerte. Los intervalos fueron ±5 ±10 y ±20 años. Los casos que cayeron en el último fueron descontados por su poco poder de discriminación.

De los resultados obtenidos se pueden sacar dos conclusiones generales: la primera es que aparecen problemas de cálculo par los modelos de regresión 2 y 3 y en bayesiano en todas las muestras superiores a 200. Los problemas surgen cuando hay factores de la muestra objetivo que no están presentes en la muestra de entrenamiento sobre todo cuando faltan factores pequeños. Por tanto, la muestra de entrenamiento debe ser lo suficientemente grande e incluir todos los factores posibles de los marcadores de edad.

La segunda conclusión es que si se documenta la edad de muerte de una colección el mejor método para estimarla en los individuos que pertenezcan a la misma es la regresión simple. El método bayesiano reduce el efecto del mimetismo, pero no lo elimina totalmente.

El tipo y el tamaño de la muestra de entrenamiento puede afectar significativamente a los resultados obtenidos. Estos también se ven influenciados por la técnica propuesta, los pesos y la muestra hipotética de entrenamiento. El método bayesiano se desempeña mejor solo cuando el tamaño de la muestra es pequeño (50) y especialmente al usar muestra de entrenamiento arbitrarias. Cuando las muestras de entrenamiento tienen un perfil demográfico el rendimiento de los métodos de regresión aumenta considerablemente y mejora más si la muestra es uniforme. Los métodos de regresión superan al bayesiano en el 90% de los sistemas.

El método bayesiano que usa un perfil demográfico uniforme o el perfil de la muestra de capacitación son una opción inapropiada especialmente el primero de ellos que deberá evitarse por completo.

El rendimiento de los métodos de regresión en relación al bayesiano depende del criterio utilizado. Existen patrones característicos que son independientes del mismo. El uso de una muestra de entrenamiento uniforme da como resultado el rendimiento óptimo entre los métodos de regresión independientemente del tamaño de la muestra y del tipo de método propuesto. Esto puede ser porque un algoritmo de aprendizaje requiere la edad en el momento de la muerte y que los cambios morfológicos y esqueléticos correspondientes estén completamente representados en la muestra de entrenamiento para que la función matemática que lo mapea sea eficiente.

Se concluye que en el enfoque bayesiano si la información previa se utiliza la muestra objetivo o una similar demográficamente se reduce el sesgo de estimación de la edad de muerte, pero no se elimina del todo. En cuanto a los métodos de regresión tanto si se utiliza el enfoque de factores de ponderación tomados del perfil demográfico de la muestra objetivo como si se utilizan una muestra hipotética de entrenamiento con perfil demográfico similar al de la muestra objetivo, reducen y minimizan el sesgo siempre y cuando la muestra de entrenamiento tenga un perfil demográfico uniforme o de tipo gaussiano con representación equilibrada entre individuos jóvenes y mayores. Si se cumple esto, los dos enfoques superan en rendimiento al bayesiano por encima del 90%.