Cómo aumentar la capacidad predictiva de un modelo estadístico.
- Daniel Gramoso
- 21 abr 2017
- 3 Min. de lectura
Existen procedimientos básicos para combinar modelos que pueden ser usados para aumentar la capacidad predictiva de cualquier modelo estadístico individualmente considerado. La idea básica es combinar las predicciones obtenidas por diferentes clasificadores en una sola predicción con el propósito de incrementar la capacidad predictiva global. Este procedimiento es conocido como "bagging" -por bootstrap aggregating- o "ensamble" de modelos.
Introducción
Los modelos estadísticos se han convertido en una de las herramientas principales que dan soporte a la toma de decisiones en ambientes automatizados y masivos. El desarrollo de estos modelos está basado en la construcción de una fórmula predictiva a través de la selección de las características de los individuos o unidades de análisis (por ej. datos sociodemográficas, transaccionales, historial crediticio en el mercado, datos geoestadísticos, etc.) más correlacionadas con el objeto de análisis, así como la estimación de la intensidad (peso) y dirección (signo) de esas relaciones.
Regularmente, el objetivo básico es la generación de un puntaje, calificación o medida que permita "rankear" a los clientes según su probabilidad de pertenecer a determinada categoría o poseer determinado valor en alguna variable de interés (ej. pagar/no pagar un crédito, ganar determinado salario, comprar/no comprar un producto, etc.).
Esos modelos en general son construidos en base al análisis histórico de comportamiento de los clientes, más información obtenida al momento de generar una operación y también con información adicionada desde otras fuentes de datos (burós de créditos, burós estadísticos, datos de redes sociales, etc.). A su vez, varias metodologías pueden ser usadas para desarrollar modelos. Entre ellas se destacan, los Árboles de Clasificación, Regresión logística, Redes Neuronales, Análisis Discriminante y Algoritmos Genéticos -por citar algunas de ellas.
En este artículo presentamos cómo la combinación de varios modelos -de una misma o diferentes metodologías- puede resultar en un "super" modelo con mayor capacidad predictiva que los individualmente considerados.
Agregación de modelos
La idea de agregación de modelos fue presentada por Breiman (1996) y consiste en combinar las predicciones de diferentes modelos de clasificación dentro de una sola predicción. El clasificador o modelo final es formado a través de la votación de los clasificadores individuales que a su vez tienen el mismo peso en la ponderación final. La decisión final se toma por mayoría simple de votos.

¿Cuántos modelos estimar para luego agregar? En general se consideran entre 25 a 50 modelos, pero la decisión final depende del problema y los tipos de datos analizados.
La siguiente imagen muestra la reducción significativa en el nivel de error de clasificación mediante la agregación de árboles de clasificación -líneas verde y marrón- frente al clasificador individualmente considerado -línea punteada superior (Hastie, et. al, p. 285). A partir de la combinación de 20 clasificadores -eje horizontal- el error de clasificación sufre un descenso de un 45% inicial a un porcentaje final levemente superior a 35%.

Aplicación práctica
El procedimiento de combinar modelos siempre presenta una capacidad predictiva igual o mayor que el modelaje convencional. Optiz y Maclin (1999) realizaron un estudio comparativo entre métodos convencionales de modelización y métodos de agregación sobre 23 conjuntos de datos para diferentes áreas de interés. El estudio reveló que los procedimientos de agregación presentaron medidas de performance predictiva mejor que él método convencional en 22 de los datasets utilizados.
Los autores también condujeron simulaciones con 5 conjuntos de datos artificiales sobre 5.000 casos clasificados como "Buenos" y "Malos" pagadores en un balance 50/50 (modelo de Credit Scoring). Ajustaron un modelo de clasificación a través de una regresión logística y un modelo agregado con 25 clasificadores individuales. En todos los casos, los modelos agregados superaron en capacidad predictiva a los modelos logísticos convencionales.
Consideraciones finales
La combinación de modelos de clasificación tiene el potencial de incrementar la capacidad predictiva de modelos individuales. En general es una buena práctica la combinación de múltiples modelos sencillos en un super modelo agregado. El beneficio se genera entonces en la combinación de gran cantidad de modelos sencillos y no en la combinación de pocos modelos muy sofisticados.
En este sentido, la ganancia en capacidad predictiva más que compensa el leve incremento del costo de implementación/programación de muchos modelos sencillos -piénsese por ejemplo en la combinación de 50 modelos de clasificación tipo "escalón". También es cierto que es posible combinar múltiples modelos generados por diferentes metodologías -stacking- aunque debe consignarse que no constituye el "espíritu" del ensamble de modelos anteriormente mencionado.
En resumen, el ensamble de modelos -en general ensamble de árboles- constituye una buena metodología para construir modelos "desafiantes" de cualquier método tradicional y es una esfuerzo que vale la pena intentar como alternativa.
Comments