Book
数据挖掘概念与技术
模式分析
beautiful data
WEKA 有很多挖掘的工具(算法j集成)
KDnuggets 是网站,有很多论文,数据
Big data 大数据的定义: high-volume, high-veiocity and high-variety
应用领域
公共安全领域:挖掘数据, 识别犯罪模式, 在犯罪发生之前, 提前组织. (预测)
医疗保健领域:识别不同客户(病人),采取不同的治疗措施, 而不是照本宣科给同样的药。
城市规划:比较交通数据信息,等然后来规划道路。
Location data:比如走到某个地方,肚子饿了,自动提示附近饭店,或者购物,你去了超市的哪个区域等,知道顾客的轨迹,在货架停留时间等。
零售业:精准销售,比如有100个人是你的潜在客户,但是只有8%左右是真正的客户,传统的方式是每个客户打电话咨询,现在可以先期通过大数据识别潜在客户(Target customer),比如40人,然后在找这40人推销,效率更高。
社交网络:比如商家,我想打广告,那么我可能需要找到有影响力的人,比如有100W粉丝的人,他穿什么鞋子,那可能他的粉丝也会模仿他。
Business Intelligence: 潜在客户识别,公司的发展.
挖掘出的东西: interesting, useful hidden, massive. 不是全自动的过程, 需要人为参与,比如人挑选一些属性,或抛出一个topic.
数据分析流程
ETL 将数据拿到后, 清洗, 然后放到数据仓库.
在数据仓库进行分析,挖掘,展示
可以看到数据挖掘的过程,还是要先 define problem. 这是要熟悉业务场景的.
越来越多的企业提供了数据挖掘的操作软件,方便企业去做数据挖掘. (其实对我们来说,更重要的是如何用这个软件,而不是研究算法)
分类问题,分切面
黑颜色的平滑的比较好. 绿颜色的太严格了. 是 Overfitting 的.
聚类
聚类是分成一组一组的。同一个group的数据比较相近.
聚类应该: 比如 market 分割, 图像分割等.
关联规则
比如 {牛奶,面包} -> 黄油, 买了牛奶面包的人可能会买黄油.
线性回归
线性回归指的是 "贝塔" 和 x 之间是线性的. 而不是画出来是直线,回归有可能是曲线的.
回归模型,中间的好,即使有一些误差.