zoukankan      html  css  js  c++  java
  • 01

    Book

    数据挖掘概念与技术

    模式分析

    beautiful data

     

    WEKA 有很多挖掘的工具(算法j集成)

    KDnuggets 是网站,有很多论文,数据

    Big data 大数据的定义: high-volume, high-veiocity and high-variety

    应用领域

    公共安全领域:挖掘数据, 识别犯罪模式, 在犯罪发生之前, 提前组织. (预测)

    医疗保健领域:识别不同客户(病人),采取不同的治疗措施, 而不是照本宣科给同样的药。

    城市规划:比较交通数据信息,等然后来规划道路。

    Location data:比如走到某个地方,肚子饿了,自动提示附近饭店,或者购物,你去了超市的哪个区域等,知道顾客的轨迹,在货架停留时间等。

    零售业:精准销售,比如有100个人是你的潜在客户,但是只有8%左右是真正的客户,传统的方式是每个客户打电话咨询,现在可以先期通过大数据识别潜在客户(Target customer),比如40人,然后在找这40人推销,效率更高。

    社交网络:比如商家,我想打广告,那么我可能需要找到有影响力的人,比如有100W粉丝的人,他穿什么鞋子,那可能他的粉丝也会模仿他。

    Business Intelligence: 潜在客户识别,公司的发展.

    挖掘出的东西: interesting, useful hidden, massive.  不是全自动的过程, 需要人为参与,比如人挑选一些属性,或抛出一个topic.

    数据分析流程

    ETL 将数据拿到后, 清洗, 然后放到数据仓库.

    在数据仓库进行分析,挖掘,展示

     可以看到数据挖掘的过程,还是要先 define problem. 这是要熟悉业务场景的.

    越来越多的企业提供了数据挖掘的操作软件,方便企业去做数据挖掘. (其实对我们来说,更重要的是如何用这个软件,而不是研究算法)

    分类问题,分切面

     黑颜色的平滑的比较好. 绿颜色的太严格了. 是 Overfitting 的.

    聚类

    聚类是分成一组一组的。同一个group的数据比较相近.

    聚类应该: 比如 market 分割, 图像分割等.

    关联规则

    比如 {牛奶,面包} -> 黄油, 买了牛奶面包的人可能会买黄油.

    线性回归

    线性回归指的是 "贝塔" 和 x 之间是线性的. 而不是画出来是直线,回归有可能是曲线的.

    回归模型,中间的好,即使有一些误差.

  • 相关阅读:
    再战设计模式(九)之组合模式
    再战设计模式(八)之桥接模式
    再战设计模式(七)之代理模式
    nyoj 题目2 括号配对问题
    剑指offer 面试题38
    杭电 1005
    九度oj 题目1552:座位问题
    九度oj 题目1482:玛雅人的密码 清华大学机试
    九度oj 题目1496:数列区间
    九度oj 题目1495:关键点
  • 原文地址:https://www.cnblogs.com/moveofgod/p/12326012.html
Copyright © 2011-2022 走看看