Path: blob/main/tp2/7506R_TP2_GRUPO09_ENTREGA_N0_(preprocesamiento).ipynb
91 views
Configuración Inicial
Importamos todos los módulos que se van a utilizar.
Separación Train-Test
Separamos el dataset en train-test.
Filtrado del set de Training
Eliminamos las observaciones y columnas que no nos van a interesar.
Renombramos place_l3
a barrio
para que sea más descriptivo.
Estandarizamos valores para dejar en NaN los datos que no tienen sentido y luego imputarlos.
Observamos las características del dataset post filtrado.
Análisis de Valores Atípicos Univariados
Hacemos un boxplot de variables cuantitativas y vemos que hay muchos valores que salen del rango intercuartil. Al analizarlas con más detalle, vemos que son muestras que no tienen mucho sentido, como tener 70 cuartos.
Por lo tanto, eliminamos los outliers serveros con la técnica del rango intercuartil.
Boxplot post eliminación de outliers. Vemos que los valores que salen del rango intercuartil son menos extremos que antes, por lo que los dejamos para analizarlos con más detalle.
Eliminamos casos atípicos donde se cumple que
la superficie total es menor a la superficie cubierta
la cantidad de ambientes es menor a la cantidad de dormitorios
Estructura post eliminación de outliers.
Imputación de datos faltantes
Imputación de property_bedrooms
, property_rooms
, property_price
Imputamos los datos utilizando un imputador iterativo.
Graficamos la distribución y vemos que luego de la imputación se mantuvo.
Guardamos estos valores en el dataset con el que vamos a trabajar.
Imputación de property_surface_covered
, property_surface_total
Imputamos los datos utilizando un imputador iterativo.
Graficamos la distribución y vemos nuevamente que se mantiene después de imputar los datos.
Lo guardamos en el dataset original.
Imputacion barrio
por coordenadas
Podemos entrenar un modelo que pueda predecir el barrio a partir de las coordenadas.
Vemos que tiene una buena performance, entonces lo usamos para imputar los barrios faltantes.
Observamos la distribución de faltantes hasta ahora.
Imputación de latitud
, longitud
según barrio
Imputamos latitud y longitud con el promedio de su barrio.
Observamos la distribución de datos faltantes.
Datos Faltantes Restantes
Como quedan pocos datos que no se pueden imputar, los eliminamos para poder continuar con el análisis posterior.
Análisis de Valores Atípicos Multivariados
Isolation Forest para property_surface_total
y property_price
Analizamos valores atípicos con isolation forest.
Graficamos la distribución de outliers encontrada.
Como son pocas observaciones que van a alterar los resultados, las eliminamos.
Exportación
Exportamos los datasets luego de aplicar el preprocesamiento de datos.