什么是数据分析?
-
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。
-
具体对数据分析做了解通过下方提供的连接:
-
https://baike.baidu.com/item/数据分析/6577123?fr=aladdin
-
为什么要数据分析?
-
希腊有一个著名的谷堆悖论。“如果1粒谷子落地不能形成谷堆,2粒谷子落地不能形成谷堆,3粒谷子落地也不能形成谷堆,依此类推,无论多少粒谷子落地都不能形成谷堆。但是,事实并非如此。” 这个悖论说的,就是告诉我们量变产生质变,需要一个明显的分割线。如果说,量是一个量化的数据,质是一个结论的话。那么,数据分析做的,就是要分析量,从而引向“定性”、”定质"。定量的了解历史的规律(“质”),从而预测未来。
-
互联网时代的到来,掀起了工业革命后的浪潮,让我们又重新认识了这个世界,而且从中获得了很多有用的信息,包括日常生活,工作,学习,旅游,创业,投资,天文,军事方方面面,越来越多的信息刷新着我们的大脑,刺激着神经,网上购物已经是我们的日常应用。随着技术和科研的进步,出现了无人驾驶车,无人商店,无人酒店等等,是什么支撑着这些看似很神秘的东西呢。毋庸置疑,那就是数据分析的伟大胜果。
如何进行数据分析?
一般流程:
“数据获取-数据存储-数据清洗-Python数据建模与分析-数据可视化与报告”
-
这才是我们要讨论的重点
-
我们已经搭建好了python环境,是我们分析数据的强大工具和发挥个人魅力的利器(皮一下)
-
首先要有数据来源,对于刚开始学习的我们,美国加州大学尔湾分校([https://uci.edu UCI])为我们提供了海量免费数据库供我们实验使用
-
这里提供段老师的详细引导资料
-
-
[http://archive.ics.uci.edu/ml/datasets.html 点这里]可以带你进入数据的海洋。 [[文件:UciMain.png|缩略图|点击看大图]]
-
左边的一列是数据库根据行业/学科的分组
-
中间那些个大大的就是实际的数据库了
-
右上搜索条可以根据关键字搜索数据库
-
在这里能看到一些数据库的重要基本信息方便我们选择
-
Name:名字
-
Data Types:数据类型(单变量、多变量、文字、图像等)
-
Default Task:默认任务类型(分类、分组、回归等)
-
Attribute Type:特征类型(整数、实数、分组(男、女)等)
-
#Instances:(数据量)
-
#Attributes:(特征量)
-
-
-
-
简单实例:信用批准问题(Credit Approval)。
-
我们知道,美国个人中小额贷款大多为信用贷款而非抵押贷款。那么“信用”该如何量化,对于不同的人该如何确定是否批准他的信用贷款呢?
-
请点击:[http://archive.ics.uci.edu/ml/datasets/Credit+Approval Credit Approval]: [[文件:CreditApproval.png|缩略图|点击看大图]]
-
这里我们最需要关注的就是最上面的两个按钮和那个小图表了
-
Data Folder:点开进入下载页面,这里面就是实际的数据库和可能有的说明文件
-
Data Description:解释数据的详细信息,如每个特征的可能变量和具体代表
-
小图表中包含了更详细的数据库的详细信息。
-
确定了一个要用的数据库,我们就可以在Data Folder里下载,整理(清理)并使用啦!
-
-
总得来说这些数据在初级阶段实验各种模型还是很有用的。有一个对某个数据库来说看起来美好的模型,我们在抓取数据的时候也可以以这个“某个数据库”为蓝本做工作。
还有很多别的提供数据库的网站,这里不一一赘述了。贴一个连接抛砖引玉:[https://www.kaggle.com/ 近几年很火的网站Kaggle]
-
ok 根据目前段老师引领的风向呢 个人觉得 我们的要干的是Python数据建模与分析
-
至于怎么建模等 见后续
-
2018-12-26