一,数据分析与挖掘简介
所谓数据分析,是对已有的数据进行分析,提取一些有价值的信息,比如平均数,标准差等。而数据挖掘,是对大量的信息进行分析和挖掘,得到一些未知的,有价值的信息。如今日头条类的新闻推送就是通过对用户的信息进行分析和挖掘,从而达到精准推送用户感兴趣的新闻。数据分析和数据挖掘往往是密不可分的,数据挖掘可以说是数据分析的进一步提升。
二,数据分析与挖掘的作用
一句话说就是从数据中提取有用的信息。如信息推送,疾病治疗,网站优化等等。随着互联网的发展和web2.0的兴起,用户大量的产生数据和浏览数据,那么对数据进行分析就显得尤为重要,能有效的利用数据,才能长久的发展。而另一方面,AI也成为人们热议的话题,机器学习也离不开数据。因为数据分析和挖掘是渗透到互联网的每一个角落。
三,数据分析和挖掘的一般步骤
- 分析需求
- 获取数据
- 数据探索
- 数据预处理(数据清洗,数据变换,数据规约等)
- 数据建模
- 发布
三,模块简介与安装(python)
- numpy:pyhton中没有数组,而numpy模块提供数组(C语言级别),是数据处理的基础
- pandas:拥有两种重要的数据类型(Series,DataFrame),主要用于数据导入,数据处理,数据探索。
- matplotlib:作图,数据可视化
- scipy:进行数值计算,支持矩阵运算,提供许多高等数据处理功能,如积分,傅里叶变换等
- statsmodels:统计分析
- Gensim:文本挖掘
安装技巧:
Python模块下载网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/