先引入包,一般EDA需要引入如下包:
1 import numpy as np 2 import pandas as pd 3 import matplotlib.pyplot as plt 4 import seaborn as sns 5 plt.style.use('fivethirtyeight') 6 import warnings 7 warnings.filterwarnings('ignore') 8 %matplotlib inline
2.读入数据,一般使用data = pd.read_csv('filepath/file.csv')读取
3.正式开始EDA
- 看看数据的格式:
data.head()
2.看看数据的各个字段有多少个为null的记录
data.isnull().sum()
3.看看生还/死亡的人数,各占比多少
1 f,ax=plt.subplots(1,2,figsize=(18,8)) 2 data['Survived'].value_counts().plot.pie(explode=[0,0.1],autopct='%1.1f%%',ax=ax[0],shadow=True) 3 ax[0].set_title('Survived') 4 ax[0].set_ylabel('') 5 sns.countplot('Survived',data=data,ax=ax[1]) 6 ax[1].set_title('Survived') 7 plt.show()