zoukankan      html  css  js  c++  java
  • 《大话数据挖掘》学习笔记——案例教学法

    "我们沉浸在数据的海洋里,却渴望着知识的淡水。"

    数据挖掘的最高境界就是“从数据中获取知识,辅助科学决策”。

    历史使命:“建设创新型国家”

    第一章

    故事一:课外知识:

        萨姆。沃尔顿(沃尔玛创始人)

      (1)服务理念:“日落原则”、“十英尺态度”、“三米微笑”。

      (2)营销策略:“女裤理论”(薄利多销)、”啤酒与尿布“(关联规则分析,数据挖掘经典案例)。

    数据挖掘的含义(是什么)

    “从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程”。

    •   “不完全”的理解:不完全或缺失的数据(删除or补上or选择使用可以自动处理缺失数据的算法)
    •   “噪音”的理解:由于异常情况的干扰,是我们获得的数据偏离了真实值,这样的数据就是噪音数据。(实际问题中噪音(失误或误差造成的)往往难以避免)
    •   “模糊”“随机”的理解:在数据挖掘过程中,事物的不确定性(包括模糊性和随机性)往往不可避免。模糊性是指事物本身从属概念的不确定性,随机性是指事件发生与否的不确定性。(参考用书:《模糊集的应用》《概率统计》)

    个人感悟:

    在信息时代,人们的生产生活模式如下:“获取大量数据——对数据进行清洗预处理(去噪音干扰)等加工——(放入数据库等)储存清洗后的数据——查询所需数据——建立一套处理、分析、归纳数据规律的系统或模型——运用建立的模型在同一领域或不同领域进行结果预测或分析(通过增加、删除或改变一些系统或模型原有的规律,使其具有领域自适应性)——将得到的结果应用于决策中”。

     

    数据挖掘产生和发展

    • 1970s,在IBM发明的关系型数据库和SQL查询语言的基础上,出现联机事物处理(OnLine Transaction Processing,OLTP)(对管理信息进行日常操作并及时、安全、高效地存储数据).
    • 1993年,(W.H.Inmon,数据仓库之父)数据仓库(Data Warehouse)是一个面向主题的、集成的、随时间变化的、持久的数据集合,用于支持管理层的决策过程。
    • 联机在线分析(OnLine Analytical Processing,OLAP)是一种具有对数据进行汇集、合并和聚集以及从不同角度观察信息的分析技术。
    • 数据挖掘(Data Mining)(商用领域)&数据库中的知识发现(Knowledge Discovery in Database,KDD)(科研界)互为别名。

     

    数据挖掘的功能(能够干什么)

    包括关联分析、聚类分析、分类、回归、时间序列分析和偏差甄别等。

     

    数据挖掘方法及常用算法

    关联(assosiation)规则

    关联规则挖掘就是发掘数据库中的关联关系。最经典的关联算法是Apriori算法(1994年),其算法的基本思想是:首先从事件中寻找所有频繁出现的事件子集,然后在这些频繁子集中发现可信度较高的规则

    近几年,很多学者开展关联规则与分类、聚类挖掘方法的结合研究;利用关联规则进行属性选择数据降维等。

    聚类分析

     聚类就是将数据对象划分成若干个类,在同一类中的对象具有较高的相似度,而不同类中的对象差异较大。

    基于距离度量对象的相似性的思想,提出了两种经典的聚类算法:划分方法(Paritioning Method)和层次聚类(Hierarchical Method)方法。

    距离计算方法(满足距离定义的四个条件:唯一性、非负性、对称性和三角不等式):欧几里得(Euclid)距离、曼哈顿(Manhattan)距离、切比雪夫(Chebyshev)距离、马哈拉诺比斯(Mahalanobis)距离等。

    预测(分类和回归)

    时间序列

    数据挖掘工具

    http://www.datamininglab.com(数挖工具软件及其性能测试报告)

    • Intelligent Miner(IBM,1996)
    • Unica Model1(典型的、针对市场营销和策划行业研发的软件,包括响应模式、交叉销售模型、客户价值评估模型、市场细分模型“四大金刚”)
    • SAS(Statistics Analysis System,操作以编程为主,人机对话界面不太友好,功能强大,统计专业人员使用)
    • SPSS(Statistical Package for the Social Sciences,社会科学统计软件包,操作界面友好,输出结果美观漂亮,具有绘图系统)
    • Clementine(图形化工作操作形式,通过数据流的交互,分析人员可以和业务人员合作,将业务知识融入数据挖掘过程中)
    • WEKA(Waikato Environment for Knowledge Analysis,免费、基于JAVA环境下开源的数据挖掘软件,是现今最完备的数据挖掘工具之一;但其算法之多使非专业人员望而却步)

    第二章

  • 相关阅读:
    UVa 11991 Easy Problem from Rujia Liu?
    UVa 11995 I Can Guess the Data Structure!
    LA 3485 (积分 辛普森自适应法) Bridge
    LA 5009 (三分法求极值) Error Curves
    软帝学院:一万字的Java基础知识总结大全(实用)
    学java可以做些什么
    从零开始学习java一般需要多长时间?
    学习java需要英语很好吗?
    java的8种基本数据类型
    什么是java变量,java变量是什么
  • 原文地址:https://www.cnblogs.com/flippedkiki/p/7182370.html
Copyright © 2011-2022 走看看