zoukankan      html  css  js  c++  java
  • Python数据分析初始(一)

    基础库

    pandas:python的一个数据分析库(pip install pandas)

    • pandas 是基于 NumPy 的一个 python 数据分析包,主要目的是为了 数据分析 。它提供了大量高级的 数据结构 和 对数据处理 的方法。

    seaborn:数据可视化 (pip install seaborn)

    • Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。应该把Seaborn视为matplotlib的补充,而不是替代物。

    scipy:数值计算库(pip install scipy)

    • SciPy (pronounced "Sigh Pie") 是一个开源的数学、科学和工程计算包。它是一款方便、易于使用、专为科学和工程设计的Python工具包,包括统计、优化、整合、线性代数模块、傅里叶变换、信号和图像处理、常微分方程求解器等等。

    matplotlib:数据可视化 (pip install matplotlib)

    • Matplotlib是一个Python的图形框架,类似于MATLAB和R语言。它是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中。

    sklearn:建模,科学计算库(pip install scikit-learn)

    • Scikit-Learn是基于python的机器学习模块,基于BSD开源许可。Scikit-learn的基本功能主要被分为六个部分,分类,回归,聚类,数据降维,模型选择,数据预处理。

    numpy:科学运算库(pip install numpy)

    • NumPy(Numeric Python)系统是Python的一种开源的数值计算扩展,一个用python实现的科学计算包。它提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。内容包括:1、一个强大的N维数组对象Array;2、比较成熟的(广播)函数库;3、用于整合C/C++和Fortran代码的工具包;4、实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包scipy配合使用更加方便。

    Windows环境可以到 http://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载安装

    工具

    ipython notebooks:Python做教学、计算、科研的一个重要工具

    pip install ipython
    pip install "ipython[notebook]"
    

    访问命令:ipython notebook

    Anaconda

    它是python科学计算的一个分发版。

    官方下载地址:https://www.continuum.io/downloads

    清华镜像:https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/

    pycharm配置: https://docs.continuum.io/anaconda/ide_integration#pycharm

    • 设置国内镜像
    # 添加Anaconda的TUNA镜像
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
    # TUNA的help中镜像地址加有引号,需要去掉
    
    # 设置搜索时显示通道地址
    conda config --set show_channel_urls yes
    
    • Conda的环境管理
    # 创建一个名为python36的环境,指定Python版本是3.6(conda会为我们自动寻找3.6.x中的最新版本)
    conda create --name python36 python=3.6
     
    # 安装好后,使用activate激活某个环境
    activate python36 # for Windows
    source activate python36 # for Linux & Mac
    # 激活后,会发现terminal输入的地方多了python36的字样,实际上,此时系统做的事情就是把默认2.7环境从PATH中去除,再把3.6对应的命令加入PATH
     
    # 此时,再次输入
    python --version
    #即系统已经切换到了3.6的环境
     
    # 如果想返回默认的python 2.7环境,运行
    deactivate python36 # for Windows
    source deactivate python36 # for Linux & Mac
     
    # 删除一个已有的环境
    conda remove --name python36 --all
    
    • Conda的包管理
    # 安装scipy
    conda install scipy
    # conda会从从远程搜索scipy的相关信息和依赖项目,对于python 3.6,conda会同时安装numpy和mkl(运算加速的库)
    
    # 查看已经安装的packages
    conda list
    # 最新版的conda是从site-packages文件夹中搜索已经安装的包,不依赖于pip,因此可以显示出通过各种方式安装的包
     
    # 查看某个指定环境的已安装包
    conda list -n python36
     
    # 查找package信息
    conda search numpy
     
    # 安装package
    conda install -n python36 numpy
    # 如果不用-n指定环境名称,则被安装在当前活跃环境
    # 也可以通过-c指定通过某个channel安装
     
    # 更新package
    conda update -n python36 numpy
     
    # 删除package
    conda remove -n python36 numpy
    
    # 更新conda,保持conda最新
    conda update conda
     
    # 更新anaconda
    conda update anaconda
     
    # 更新python
    conda update python
    # 假设当前环境是python 3.6, conda会将python升级为3.6.x系列的当前最新版本
    
    # 在当前环境下安装anaconda包集合
    conda install anaconda
     
    # 结合创建环境的命令,以上操作可以合并为
    conda create -n python36 python=3.6 anaconda
    # 也可以不用全部安装,根据需求安装自己需要的package即可

    四分位数

    四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。

    示例:

    首先确定四分位数的位置:(n表示项数)

    • Q1的位置= (n+1) × 0.25
    • Q2的位置= (n+1) × 0.5
    • Q3的位置= (n+1) × 0.75

    对于四分位数的确定,有不同的方法,另外一种方法基于N-1 基础。即

    • Q1的位置=1+(n-1)x 0.25
    • Q2的位置=1+(n-1)x 0.5
    • Q3的位置=1+(n-1)x 0.75

    Excel 中有两个四分位数的函数。QUARTILE.EXC 和QUARTILE.INC

    偏度

    偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。

    具体百度百科了解下 http://baike.baidu.com/item/%E5%81%8F%E5%BA%A6/8626571?fr=aladdin

  • 相关阅读:
    Python列表生成
    Python 多线程
    Python面向对象编程
    map, reduce和filter(函数式编程)
    35个高级python知识点
    python之pyc
    Python之简单的用户名密码验证
    EasyUI 实例
    hibernate映射文件one-to-one元素属性
    Java中多对多映射关系
  • 原文地址:https://www.cnblogs.com/shhnwangjian/p/6507065.html
Copyright © 2011-2022 走看看