zoukankan      html  css  js  c++  java
  • 【Python数据挖掘概念、方法与实践】

    第一章 扩展你的数据挖掘工具

    • 模式识别
      面对感官信息时,人类自然想要寻找模式,对其进行区别、分类和预测。这种寻找周围模式的过程是人类的基本活动,人类的大脑对此很擅长。利用这种技能,我们的祖先更好地掌握了狩猎、聚会、烹饪和组织知识。因此,人类最早计算机化的任务是模式识别和模式预测也就不足为奇了,这种渴望一直持续到现在。近来,根据给定项目的目标,使用计算机找出数据中的模式,已经涉及数据库系统、人工智能、统计学、信息检索、计算机视觉和其他各种计算机科学子领域,以及信息系统、数学或者商业等。不管我们将这种活动称作什么——数据库中的知识发现、数据挖掘、数据科学,其主要使命始终是找出有趣的模式。

    模式识别是人类的一项基本能力

    • 第一章主要内容
      什么是数据挖掘
      我们如何进行数据挖掘
      数据挖掘中使用哪些技术
      如何建立数据挖掘环境

    如何建立数据挖掘环境是重点

    什么是数据挖掘

    • 数据挖掘与知识发现
    • 比较术语
      • 机器学习
        是计算机中科学中的一个非常特殊的子领域,其焦点是开发能从数据中学习以做出预测的算法。但是并不是所有数据挖掘都试图从数据中做出预测或者学习。有时候,我们只是想要找到数据中的一个模式。
      • 预测分析
        各个领域中试图从数据中作出预测的计算解决方案的统称
      • 大数据
        与我们是要搜索数据中的模式还是简单地存储这些数据无关。
      • 数据科学
        是最接近KDD过程的术语,数据挖掘是他们的一个步骤。

    Fayyad等人的KDD过程

    论文: The KDD Process for Extracting Useful Knowledge from Volumes of Data_1996

    KDD方法的具体步骤

    1. 数据选择
    2. 数据预处理
    3. 数据变换
    4. 数据挖掘
    5. 数据解释/评估
    • 数据挖掘教科书:《Data Mining:Concepts and Thechniques》
      也是从原始数据导出知识:
      数据清理
      数据整合
      数据选择
      数据变换
      数据挖掘
      模式评估
      知识表示

    1.2.3 CRISP-DM过程

    KDD过程的第3种流行版本为CRISP-MD,CRoss-Industry Standard Process for Data Mining

    1. 业务理解
    2. 数据理解
    3. 数据准备
    4. 建模
    5. 评估
    6. 部署
  • 相关阅读:
    【HDOJ5538】House Building(计算几何)
    maven操作
    Guava 是个风火轮之函数式编程(3)——表处理
    guava 学习笔记 使用瓜娃(guava)的选择和预判断使代码变得简洁
    guava 学习笔记(二) 瓜娃(guava)的API快速熟悉使用
    Google Guava官方教程(中文版)
    Guava中Predicate的常见用法
    guava函数式编程
    idea常用快捷键
    guava
  • 原文地址:https://www.cnblogs.com/bitbitbyte/p/12536608.html
Copyright © 2011-2022 走看看