zoukankan      html  css  js  c++  java
  • 什么是数据挖掘?

    毫不奇怪,作为一个多学科领域,数据挖掘可以用多种方法定义。即使术语“数据挖掘”本身实际上也不能完全表达其主要含义。从矿石或砂子中挖掘黄金称做黄金挖掘,而不是砂石挖掘。类似地,数据挖掘应当更正确地命名为“从数据中挖掘知识”,不幸的是这有点长。然而,较短的术语“知识挖掘”可能反映不出强调的是从大量数据中挖掘。毕竟,“挖掘”是一个很生动的术语,它抓住了从大量的、未加工的材料中发现少量宝贵金块这一过程的特点。这样,这种不恰当的用词包含了“数据”和“挖掘”,成了一种流行的选择。此外,还有一些术语具有和数据挖掘类似的含义,例如从数据中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。

    许多人把数据挖掘视为另一个流行术语数据中的知识发现(KDD)的同义词,而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤。知识发现过程以下步骤的迭代序列组成:

     (1)数据清理(消除噪声和删除不一致数据)。
     (2)数据集成(多种数据源可以组合在一起)。
     (3)数据选择(从数据库中提取与分析任务相关的数据)。
     (4)数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)。
     (5)数据挖掘(基本步骤,使用智能方法提取数据模式)。
     (6)模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式。
     (7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。*
    

    这种观点把数据挖掘看做知识发现过程中的一个步骤,尽管是最重要的一个步骤,因为它发现用来评估的隐藏模式。然而,在产业界、媒体和研究界,“数据挖掘”通常用来表示整个知识发现过程(或许因为术语“数据挖掘”比“从数据中发现知识”短)。因此,我们采用广义的数据挖掘功能的观点:数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据

    文章内容来源:《数据挖掘概念与技术》

  • 相关阅读:
    django操作mysql时django.db.utils.OperationalError: (2003, "Can't connect to MySQL server")异常的解决方法
    Django实践:个人博客系统(第七章 Model的设计和使用)
    shared_ptr / weak_ptr 代码片段
    Java中比较容易混淆的知识点
    指针和引用作为参数的区别
    STL 算法
    STL扩展容器
    STL中 map 和 multimap
    STL中 set 和 multiset
    <<C++标准程序库>>中的STL简单学习笔记
  • 原文地址:https://www.cnblogs.com/DeepRunning/p/9205904.html
Copyright © 2011-2022 走看看