zoukankan      html  css  js  c++  java
  • python可视化

    python可视化

    变量分布

    hist是直方图的缩写,bins表示有多少个直方图。

    df['col'].hist(bins=50, figsize=(12,5),grid=False)
    
    sns.distplot(train['col'])
    

    seaborn会自动拟合一条曲线。

    双变量联系

    画房屋面积和价格之间的x-y图

    sns.jointplot(x='area_house', y='price', data=train, alpha=0.3, size=4)
    

    或是直接查看Pearson系数:

    columns = train.columns.values.tolist()
    train.corr()['price'][columns].sort_values(ascending=False).plot(
        kind='barh', figsize=(12,6)
    )
    

    解析一下,columns是列的名称,train.corr()返回一个DataFrame,里面全是corr,
    选出其中的一个Series: train.corr()['price'][columns],排序以后,再画图。

    离散变量和连续变量之间的关系

    离散值对连续取值的影响程度。

    比如构造二值,判断这个构造合不合理,就是看这个二值有没有区分度。

    from scipy.stats import pointbiserialr
    plt.figure(figsize=(15,6)) # 设置sns要画的大小
    sns.boxplot(y='repaired', x = 'price', data=train, orient='h') # 
    

    会自动根据分的类计算不同类的箱线图。

  • 相关阅读:
    【题解】【神奇校内POIN模拟赛】小凯的疑惑
    【题解】【CF670C】cinema
    11 Remove Duplicates from Sorted Array II
    10 3SumClosest
    7 Container With Most Water
    8 String to Integer (atoi)
    9 3Sum
    6 Palindrome Number
    5 Zigzag Conversion
    4 Longest Palindromic Substring
  • 原文地址:https://www.cnblogs.com/ticlab/p/15391338.html
Copyright © 2011-2022 走看看