Path: blob/main/tp2/7506_R_TP2_GRUPO09_ENTREGA_N3(Ensambles).ipynb
91 views
Configuración inicial
Importamos las bibliotecas necesarias.
Funciones útiles
Modelos
Importamos los modelos generados en el TP1.
Datasets
Importamos los datasets con los que vamos a trabajar.
Voting
Convertimos las categorías del target de clasificación en categorías numéricas para que los modelos trabajen con los mismos datos y escalamos el modelo de regresión logísitca para que performe mejor.
Creamos un ensamble de votación.
Entrenamos el modelo.
Evaluamos el modelo con los datos de train para ver qué tan bien se entrenó.
Evaluamos en el conjunto de test y vemos que tiene buenos resultados.
Stacking
Creamos el ensamble a partir de los modelos de regresión generados en el TP1.
Entrenamos el modelo de stacking.
Medimos la performance con los datos de train.
Calculamos con los datos de test.
Conclusiones
Los resultados del voting no mejoraron a los resultados de los modelos por separado. Esto puede deberse a que RandomForest ya es un ensamble de voting, por lo que hacer un ensamble nuevo con un RandomForest y un DecisionTree no aporta mucho. Quizás agregar modelos más diversos, como KNN o XGBoost hubiera mejorado las métricas.
Por otro lado, el resultado del stacking es muy bueno, similar al obtenido con los modelos por separado. Analizándolo, podemos suponer que el estimador final eligió XGBoost como mejor modelo.
En el TP1, los scores R2 sobre los datos de test fueron:
XGBoost: 0.8875645071859526
GradientBoost: 0.8467735847628741
KNN: 0.7906024537502832