zoukankan      html  css  js  c++  java
  • 01

    Book

    数据挖掘概念与技术

    模式分析

    beautiful data

     

    WEKA 有很多挖掘的工具(算法j集成)

    KDnuggets 是网站,有很多论文,数据

    Big data 大数据的定义: high-volume, high-veiocity and high-variety

    应用领域

    公共安全领域:挖掘数据, 识别犯罪模式, 在犯罪发生之前, 提前组织. (预测)

    医疗保健领域:识别不同客户(病人),采取不同的治疗措施, 而不是照本宣科给同样的药。

    城市规划:比较交通数据信息,等然后来规划道路。

    Location data:比如走到某个地方,肚子饿了,自动提示附近饭店,或者购物,你去了超市的哪个区域等,知道顾客的轨迹,在货架停留时间等。

    零售业:精准销售,比如有100个人是你的潜在客户,但是只有8%左右是真正的客户,传统的方式是每个客户打电话咨询,现在可以先期通过大数据识别潜在客户(Target customer),比如40人,然后在找这40人推销,效率更高。

    社交网络:比如商家,我想打广告,那么我可能需要找到有影响力的人,比如有100W粉丝的人,他穿什么鞋子,那可能他的粉丝也会模仿他。

    Business Intelligence: 潜在客户识别,公司的发展.

    挖掘出的东西: interesting, useful hidden, massive.  不是全自动的过程, 需要人为参与,比如人挑选一些属性,或抛出一个topic.

    数据分析流程

    ETL 将数据拿到后, 清洗, 然后放到数据仓库.

    在数据仓库进行分析,挖掘,展示

     可以看到数据挖掘的过程,还是要先 define problem. 这是要熟悉业务场景的.

    越来越多的企业提供了数据挖掘的操作软件,方便企业去做数据挖掘. (其实对我们来说,更重要的是如何用这个软件,而不是研究算法)

    分类问题,分切面

     黑颜色的平滑的比较好. 绿颜色的太严格了. 是 Overfitting 的.

    聚类

    聚类是分成一组一组的。同一个group的数据比较相近.

    聚类应该: 比如 market 分割, 图像分割等.

    关联规则

    比如 {牛奶,面包} -> 黄油, 买了牛奶面包的人可能会买黄油.

    线性回归

    线性回归指的是 "贝塔" 和 x 之间是线性的. 而不是画出来是直线,回归有可能是曲线的.

    回归模型,中间的好,即使有一些误差.

  • 相关阅读:
    设计模式之桥接模式
    设计模式之观察者模式
    设计模式之装饰者模式
    设计模式之适配器模式
    2 深入分析 Java IO的工作机制(二)
    struts2常用标签使用说明
    JDK环境变量配置
    Oracle恢复删除数据 && connect by 树形结构查询
    Spring和Hibernate集成配置
    Struts2中重定向和请求转发配置
  • 原文地址:https://www.cnblogs.com/moveofgod/p/12326012.html
Copyright © 2011-2022 走看看