zoukankan      html  css  js  c++  java
  • 2017.06.29 数据挖掘概念知识第一章

    第一章
    1、数据仓库技术:
    1、数据清理 2、数据集成 3、联机分析处理
    2、数据挖掘(知识发现)过程P5详见图
    1、数据清理 2、数据集成 3、数据选择 4、数据变换
    5、数据挖掘 6、模式评估 7、知识表示
    3、大数据的特点:
    1、量大 2、种类多 3、处理速度快 4价值密度低 5、复杂性
    4、类与概念描述方法过程:
    1、数据特征化 2、数据区分 3、数据特征化和区分
    5、分类如何提供导出的模型:
    导出的模型可以多种形式表示:分类规则、决策树、数学公式或神经网络
    6、一个模型是有趣的:
    1、易于被人理解 2、在某种确信度上,对于新的或检验数据是有效的
    3、是潜在有用的 4、是新颖的
    7、数据挖掘系统能够产生所有有趣的模式吗?
    涉及数据挖掘算法的完全性,期望数据挖掘系统产生所有可能的模式通常是不现实的和低效的。实际上,应当根据用户提供的约束和兴趣度量对搜索聚焦。
    8、数据挖掘系统能够 仅 产生有趣的模式吗
    是数据挖掘优化问题。对于数据挖掘系统,仅产生有趣的模式是非常期望的。这对于用户和数据挖掘系统都更加有效,因为这样就不需要搜遍所产生的模式来识别真正有趣的模式。在这方面已经有了一些进展。然而,在数据挖掘中,这种优化仍然是个挑战。
    9、数据挖掘使用的技术
    1、统计学 2、机器学习 3、模式识别 4、数据库和数据仓库 5、信息检索
    6、可视化 7、算法 8、高性能计算和许多应用领域的大量技术
    10、机器学习:
    1、监督学习 2、半监督学习 3、无监督学习 4、主动学习
    11、数据仓库与数据库有何不同?他们有哪些相似之处
    异同:
    1、数据库是面向事务设计,数据仓库是面向主题
    2、数据库一般储存在线交易数据,数据仓库存储的一般是历史数据
    3、数据库设计时尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计有意引入冗余,采用反范式的方式来设计
    4、数据库是为捕获数据而设计,数据仓库是为分析数据而设计
    相同点:
    他们都为数据挖掘提供了源数据,都是数据的组合
    12、解释区分与分类、特征化与聚类、分类与回归之间的区别和相似之处
    区分与分类:数据区分是将目标类书籍对象的一般特性与一个或多个对比类对象的一般特性进行比较;而分类则是找出描述和区分数据类或概念的模型,以便能够使用模型对未知类标号的样例进行预测
    特征化与聚类:数据特征化是目标类数据的一般特性或特征的汇总,即在进行数据特征化时很清楚特征化的这些数据的特点是什么;而聚类则只是分析数据对象,按照“最大化类内相似度、最小化类间相似度”的原则进行聚类或分组
    分类与回归:分类在第一点时已经说过;回归主要是建立连续值得函数模型,回归主要用来预测缺失的或难以获得的数值数据值,而不是离散的类标号,同时回归也包含基于可用数据的分布趋势识别
    13、定义下列数据挖掘功能:特征化、区分、关联和相关性分析、分类、回归、聚类、离群点分析(例子书本10-14)
    数据特征化是目标类数据的一般特性或特征的汇总
    数据区分:将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较
    关联:发现关联规则这些规则表示一起频繁发生在给定数据集的特征值的条件
    分类:找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类标号
    回归:用来预测缺失的或难以获得的数据值
    相关分析:在分类和回归之前进行,试图识别与分类和回归过程显著相关的属性
    聚类:分析数据对象,而不考虑类标号
    离群点分析:数据集中的一些数据对象与数据的一般行为或模型不一致
    14、与挖掘少量数据(例如,几百个元组的数据集合)相比,挖掘海量数据(数十亿个元的
    元组)主要挑战是什么?
    1、 在挖掘海量数据时,如何去保护人们的隐私。
    2、 海量数据一般存储在云上,如何保证数据的安全性
    3、 如何在海量数据中快速的挖掘出感兴趣的模式;
    4、 海量数据中挖掘出有趣的、有价值的模式之后,如何以可视化形式展现出来
    15、描述三个关于数据挖掘方法和用户交互问题的数据挖掘挑战
    1、涉及数据挖掘挑战自然是比较有深度、难度的数据挖掘,诸如交通拥堵、环境恶化、
    能耗增加等三个领域,交通拥堵,可以通过GPS、北斗导航的定位系统进行定位,
    将以上已知数据信息进行融合,加之一定的数据挖掘算法从而去解决交通拥堵问题。
    将拥堵的情况动态的展现给司机则设计到了数据的可视化,那么如何将这些实时的
    车流情况以及解决方式动态的呈现给司机则又是一大挑战
    2、环境恶化、能耗增加:这两大难题在现实生活中同样表现得比较突出,但是仅从单
    方面来讲,我们可以获取的信息也是比较充足的,比如气象条件、各项环境指标的
    检测数据等等,那么如何将这些数据有效的融合并且提出有效的解决方案或者说是建立良好的数字模型则是摆在众多科研人员面前的一大挑战
    16、挖掘方法:
    1、挖掘各种新的知识类型 2、挖掘多维空间中的知识
    3、数据挖掘——跨学科能力 4、提升网络环境下的发现能力
    5、处理不确定性、噪声或不完全数据 6、模式评估和模式或约束指导的挖掘
    17、比较数据挖掘算法时的两个考虑因素
    1、数据挖掘算法的有效性和可伸缩性 2、并行、分布式和增量挖掘算法
    18、用户界面
    1、交互挖掘 2、结合背景知识
    3、特定的数据挖掘和数据挖掘查询语言 4、数据挖掘结果的表示和可视化
    19、面向什么类型的应用:
    1、商务智能
    2、web搜索引擎:(1)必须处理大量并且不断增加的数据
    (2)web搜索引擎通常需要处理在线数据
    (3)Web搜索引擎常常需要处理多次出现次数不多的查询
    20、什么是数据仓库
    一种用来长期存储数据的仓库,这些数据来自多个数据源,是经过组织的,以便支持管理决策。这些数据在一种统一的模式下存放,并且通常是汇总的。数据仓库提供一些数据分析能力,称做OLAP

  • 相关阅读:
    Unity5和WebGL移植指南的一些总结
    Unite洛杉矶峰会精彩回顾:从图形、平台再到VR
    比代码更重要的是团队管理
    初期游戏编程的9大法则
    关于Unity3D手机网游开发一些小看法
    守住真我
    学习要讲方法
    学习笔记|编程风格
    随便记
    微信方法
  • 原文地址:https://www.cnblogs.com/hqutcy/p/7096608.html
Copyright © 2011-2022 走看看