第一章Python数据分析概述
1、理解数据
2、认识数据分析
3、数据分析工具Python
4、重要的Python数据分析类库
5、集成开发环境和文本编辑器
6、使用Jupyter Notebook
第1节:理解数据
1、数据有结构化数据、半结构化数据和非结构化数据
结构化数据有: 1、表格型数据 2、多维数组(矩阵) 3、通过关键列相互联系的多个表(如sql中的主外键) 4、间隔平均或不平均的时间序列
第2节:认识数据分析
1、数据分析是数学与计算机科学结合的产物
2、数据分析方法
- 描述型分析
- 诊断型分析
- 预测型分析
- 指令型分析
3、数据分析的一般流程
- 需求分析
- 数据获取
- 数据预处理
- 数据分析与建模
- 模型评价和优化
- 部署
第3节:数据分析工具Python
1、目前主流的数据分析语言有R、Python
功能对比:
- Python与R相比速度更快
- Python的工程化应用强于R
- Python的应用场景大于R
- Python处理大数据的速度快于R
- 统计理论研究、前沿科学研究,R比Python更胜一筹
应用场景对比
- 使用Python进行数据预处理、数据清洗,特别是针对非结构化的数据,具有极强的灵活性,能够从自由文本、网站等提取信息,便于图像挖掘和为分析准备数据
- 使用R进行分析、数据可视化与建模:
- 为分析提供了极好的灵少性
- R使你在分析时候更容易思考
- 由于R有着十分活跃的统计和数学社区
2、Python的优势
- 优雅、简单、明确
- 强大的标准库
- 良好的可扩展性
- 胶水语言(开源、可移植、可嵌入到C等程序中)
第4节:重要的Python数据分析类库
1、NumPy(Numerical Python)是Python科学计算的基础包
- 提供了快速高效的多维数组对象ndarray
- 提供了对数组执行元素级计算以及直接对数组执行数学运算的函数
- 提供了读写硬盘上基于数组的数据集的工具
- 提供了线性代数运算、傅里叶变换、随机数生成功能
-
提供了成熟的C API,用于Python插件和原生C、C++、Fortran代码访问NumPy的数据结构和计算工具
-
NumPy为Python提供快速的数组处理能力
- NumPy在数据分析方面作为在算法和库之间传递数据的容器
- 对于数值型数据,NumPy数组在存储和处理数据时要比内置的Python数据结构高效得多
- 由低级语言编写的库可以直接操作NumPy数组中的数据,无需进行任何数据复制工作
2、pandas是Python的一个数据分析包(最初由金融数据分析工具开发而来)
- pandas为时间序列分析提供了很好支持
- pandas是基于NumPy的一种工具,是为了解决数据分析任务而创建的
- pandas纳入了大量库和一些标准的数据模型,提供了高效的操作大型数据集所需的工具
- pandas提供了大量能使我们快速便捷处理数据的函数和方法
- pandas是使Python成为强大而高效数据分析环境的重要因素之一
3、Matplotlib是Python的一个2D绘图库
- 它以各种硬拷贝格式和跨平台的交互式环境,生成用于出版质量级别的图形
- Matplotlib操作简单,几行代码就可以生成折线图、直方图、功率谱图、条形图、错误图、散点图等
- 提供了pylab的模块,其中包括了NumPy和pyplot中许多常用的函数,方便用户快速进行计算和绘图
4、SciPy是一组专门解决科学计算中各种标准问题域的包的集合
5、scikit-learn是最为流行的Python的通用机器学习工具包
6、stats models是一个统计分析包,包含经典统计学和经济计算学的算法
第5、6节:集成开发环境和文本编辑器及使用Jupyter Notebook
- Tab补全
- shit+enter 运行代码
- 加粗 节能
- 斜体 斜体
- 表格制作
- 导出方式