Pandas DataWrangling cheatsheet（数据整理）

zoukankan html css js c++ java

Pandas DataWrangling cheatsheet（数据整理）
数据分析的整个过程中，可能80%的时间都用于清理和准备数据！现实世界的数据通常都不干净。使用 Python 以及 pandas等第三方库，可以收集各种来源、各种格式的数据，评估数据的质量和整洁度，然后进行清洗。这个过程叫做数据整理。可以在 Jupyter Notebook 中记录并展示数据整理的过程，然后使用 Python (及其库) 和/或 SQL 进行分析和可视化。
数据整理（Data Wrangling）一般包括以下内容：
- 数据收集(Gather)
- 数据评估(Assess)
- 数据清理(Clean)
数据收集（Gather）

收集数据的方式有很多，包括直接利用现有的商业或开源数据集、利用爬虫或相关程序从互联网或者API持续的获得数据、根据现实业务自行设计数据采集方案获取数据。
实际工程中，为了未来目标系统有更好的适应性和泛化性，因注重数据采集方案的的设计，数据收集的可扩展性（Scalability）和重复性（Reproducibility）。

数据评估（Assess）

可以从两方面进行：质量（Quality），整洁度（Tidiness）
1）质量（Quality）
低质量数据常常包括
- 数据丢失，缺值。
- 数据无效。
- 数据不准确。
- 数据不一致，比如使用不同的长度单位（英寸和厘米）。
1. 整洁度（Tidiness）
  不整洁数据常被称为杂乱数据（messy data），是统计学家、教授和全能数据专家 Hadley Wickham 提出的概念。
  指的是：
  1）Each variable forms a column (每个变量构成一列)
  2）Each observartion forms a row (每个观察构成一行)
  3)Each type of observational unit form a table (每类观察单元构成一个表格)
程序清理（Clean）

数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。

建议实践：
https://blog.csdn.net/heleiecho/article/details/103148493?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1&utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1
查看全文

相关阅读:
PowerDesigner应用02 逆向工程之导出PDM文件前过滤元数据(表、视图、存储过程等)
PowerDesigner应用01 逆向工程之配置数据源并导出PDM文件
 CLR查找和加载程序集的方式（二）流程图
 CLR查找和加载程序集的方式（一）
C#控制台程序入口函数 Main(string[] args) 参数详解
 INotifyPropertyChanged 接口 CallerMemberName属性
 INotifyPropertyChanged 接口
 SQL Server 中执行Shell脚本计算本地文件的内容大小
 统计一个数据库中，无记录的表的sql语句
 SQL 性能优化总结

原文地址：https://www.cnblogs.com/supercodeing/p/12750473.html

Pandas DataWrangling cheatsheet（数据整理 ）

数据收集（Gather）

数据评估（Assess）

程序清理（Clean）

Pandas DataWrangling cheatsheet（数据整理）