Визуальный анализ данных
Подключаем необходимые библиотеки.
Считываем датасет.
Проверяем, всё ли правильно считалось и "распарсилось".
Можно получить сводку и общее представление о типах данных.
Целевая переменная: churn (лояльность абонента). Это категориальный (более конкретно — бинарный) признак. Попробуем узнать, как распределены его значения.
Видим, что 2850 из 3333 абонентов — лояльные. А сколько это в процентах?..
Визуализируем это.
Нам также может быть интересно, у скольких наших клиентов подключён роуминг.
А как обстоят дела у нелояльных пользователей (churn=1)?
Видим, что процент клиентов с роумингом выше, чем в общей выборке.
Можем предположить, что бинарные признаки international plan и churn коррелируют. Нарисуем теперь их вместе.
Большинство клиентов, у которых был подключён роуминг, от нас ушли!
Посмотрим на распределение признака account length.
Похоже на нормальное распределение!
Что можно сказать о связи между account length и лояльностью?
На первый взгляд, никак не связаны.
На второй взгляд тоже.
Теперь посмотрим, связаны ли длительности дневных и ночных звонков.
А как насчёт количества звонков?
Пока никакой связи не видно.
Построим корреляционную матрицу для числовых признаков.