数据挖掘入坑
0x01什么是数据挖掘
1.定义:从数据中获取知识。
2.实例:
1.比如你要想知道某辆车从启动到速度稳定行驶的距离,那么你会先统计从启动到稳定耗费的时间、稳定后的速度、加速度等参数;然后运用牛顿第二定律(或者其他物理学公式)建立模型;最后根据该车多次实验的结果列出方程组从而计算出模型的各个参数。通过该过程,你就相当于学习到了一个知识 — 某辆车从启动到速度稳定行驶的具体模型。此后往该模型输入车的启动参数便可自动计算出该车达到稳定速度前行驶的距离。
2.然而,在数据挖掘的思想中,知识的学习是不需要通过具体问题的专业知识建模。如果之前已经记录下了100辆型号性能相似的车从启动到速度稳定行驶的距离,那么我就能够对这100个数据求均值,从而得到结果。显然,这一过程是是直接面向数据的,或者说我们是直接从数据开发模型的。
3.这其实是模拟了人的原始学习过程 — 比如你要预测一个人跑100米要多久时间,你肯定是根据之前了解的他(研究对象)这样体型的人跑100米用的多少时间做一个估计,而不会使用牛顿定律来算。
4.以上就是首要原则模型(first-principle models),是科学工程领域最为经典的模型。
3.机器学习与数据挖掘:
机器学习偏向于底层,更侧重算法和优化方面。
数据挖掘面向模型。
4.算法:
a. 关联规则挖掘 (Apriori, FPTree, etc.)
b. 分类 (C4.5, KNN, Logistic Regression, SVM, etc.)
c. 聚类 (Kmeans, DBScan, Spectral Clustering, etc.)
d. 降维 (PCA, LDA, etc.)
e. 推荐系统 (基于内容的推荐,协同过滤,如矩阵分解等)
参考资料:
领域简介
计算机的潜意识
数据挖掘概述-By幕晨
zhihu如何学习数据挖掘
10大算法一览表
学习资料
Coursera吴恩达
Google的课程
Microsoft的数据挖掘
深度学习公开课汇总-CSDN
数据全栈
fengjunchen-学习资料
宏伦养成
python之用
shareditor