https://www.kaggle.com/blastchar/telco-customer-churn
1、分析目标
对流失用户进行年龄,性别,家庭状况,职位进行画像分析。
对流失用户所选择的服务进行分析。
对流失用户的付费情况进行分析。
2、理解数据
1)字段含义
2)加载数据
# -*- coding: utf-8 -*- import pandas as pd import numpy as np import matplotlib.pyplot as plt # 1、加载数据 data =pd.read_csv(r'C:SoftwarePythonManager数据Data elco-customer-churnWA_Fn-UseC_-Telco-Customer-Churn.csv')
3)数据概况
# 2、了解数据 data.info() >>>输出结果: <class 'pandas.core.frame.DataFrame'> RangeIndex: 7043 entries, 0 to 7042 Data columns (total 21 columns): customerID 7043 non-null object gender 7043 non-null object SeniorCitizen 7043 non-null int64 Partner 7043 non-null object Dependents 7043 non-null object tenure 7043 non-null int64 PhoneService 7043 non-null object MultipleLines 7043 non-null object InternetService 7043 non-null object OnlineSecurity 7043 non-null object OnlineBackup 7043 non-null object DeviceProtection 7043 non-null object TechSupport 7043 non-null object StreamingTV 7043 non-null object StreamingMovies 7043 non-null object Contract 7043 non-null object PaperlessBilling 7043 non-null object PaymentMethod 7043 non-null object MonthlyCharges 7043 non-null float64 TotalCharges 7043 non-null object Churn 7043 non-null object dtypes: float64(1), int64(2), object(18) memory usage: 1.1+ MB
数据集的数据量为:7043*21,数据集大小为1.1Mb左右,数据很干净,没有空值,数据预处理可不做缺失值处理。
4、数据预处理
1)缺失值处理
无缺失值情况出现
2)异常值处理