zoukankan      html  css  js  c++  java
  • 数据科学:待学习的内容

    pandas.Series 的一些方法:https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.corr.html

    1. plt.subplots():将 plt.figure 创建的画板,分割成多个子图(clos——列、rows——行);
    2. plt.figure(figsize=(15,5)):创建一个图形实例,俗称话本,在这个画板上绘制几行几列的图;figsize 表示图形的(宽,高);
    3. sns.barplot():绘制不同Series之间的相关性图
    4. figure、subplot 的使用,参考:https://blog.csdn.net/claroja/article/details/70841382
    5. pd.concat(df1, df2):连接两个DataFrame 数据集;
    6. df1.loc[[0, 2, 3], :]:删除数据 df1的第0、2、3 行;
    7. df1.loc[:, [0, 2, 3]]:删除数据 df1的第0、2、3 列;
    8. df2 = df1.reset_index():将 df1 的每行的引索(Id)保留,以列名做为新的 index,生成新的数据 df2;(一般默认以行做引索)
    9. df3 = df1.reset_index(drop=True):drp = True,删除 df1 的行引索,一列名作为新的 index,生成新的数据 df3;
    10. df1.dtypes(include=None, exclude=None):按类型查看数据 df1 中的其它数据;
    11. df1.dtypes[df1.dtypes == 'object']:查看 df1 数据中,类型为 'object' 类型的数据;
    12. df1.index:返回数据 df1 的引索对象;
    13. df1.index.values:以 array 的形式返回 df1 的引索的值;(多用于获取所有的特征,也就是 df1 的所有列名)
    14. stats.probplot():
    15. DataFrame 中 sort_values():
    16. Seaborn 中的箱型图:
    17. 箱型图:统计学中应用
    18. 四等分点:
    19. 方差齐次验证:如何理解线性回归中的方差齐性
    20. 方差分析:统计学知识;参考百科自学
    21. 协方差:
    22. scipy.stats 模块:
    23. f, p = scipy.stats.f_oneway(sample1, sample2, ...):单向方差分析,入参是分好组的多个 array;
    24. 单向方差分析:计算各组数据间的差异性,统计学知识,参考百科;
    25. df1.isnull():判断 df1 的数据是否为 np.NaN 类型;返回 bool 类型,是则为 True,不是返回 False;
    26. Series1.corr(Series2, method='pearson'min_periods=None):计算 Series1 和 Series2 之间的相关性(不包含数据中的缺失值);(采用了方差的分析思路)参考pandas文档
    27. DataFrame.corr(method='pearson'min_periods=None):计算 DataFrame 的协方差关联程度;
    28. sns.heatmap():绘制热力图;
    29. DataFrame.nlargest(n, 'columns1'):从数据 DataFrame 的 ‘columns1’ 列中,找出数值最大的 n 个数所在行,返回一个新的 DataFrame;
    30. sns.pairplot():绘图
    31. train.sort_values(by='GrLivArea', ascending=False)[:2][['Id', 'GrLivArea', 'SalePrice']]:按 ‘GrLivArea’ 列的数值对 train 从大到小排序(ascending=False 表示从大到小),并且查看排序后的数据集的前 2 行的列名是 ['Id', 'GrLivArea', 'SalePrice'] 的数据;
    32. DataFrame[:n][['columns1', 'columns2', 'columns3']]:查看数据的前 n 行的列名为 ['columns1', 'columns2', 'columns3'] 的数据;
    33. “偏度 - 峰度” 检验法:
    34. 偏度:统计学知识
    35. 峰度:统计学知识;
    36. DataFrame.apply():
    37. dataframe.fillna():
    38. Series.to_dict():
    39. DataFrame.gtoupby():
    40. 学习《Python 科学计算》:做数据处理的;
  • 相关阅读:
    520了,用32做个简单的小程序
    安装 部署 postgresql数据库 搭建主从节点 (业务库)
    年轻就该多尝试,教你20小时Get一项新技能
    谷歌搜索进阶(二)
    谷歌搜索进阶(一)
    Linux进程前后台管理(&,fg, bg)
    VTF/AMROC安装指南
    神经网络学习笔记(三):三种典型的架构
    神经网络学习笔记(二):feedforward和feedback
    神经网络学习笔记(一)
  • 原文地址:https://www.cnblogs.com/volcao/p/9535294.html
Copyright © 2011-2022 走看看