zoukankan      html  css  js  c++  java
  • 「数据挖掘入门系列」数据挖掘基础

    伴随着信息化系统建设的发展,各行各业的中大型企业都存储了大量的业务数据。很多的企业想要通过对这些数据的分析,来发现新的商机以及从这些数据中找到提高盈利的方法。大部分的企业,都是凭借管理人员的自身个人经验来开展这项工作。如果有一套系统,能够自动地或者半自动地发现相关的知识和解决方案,这样将会有效地提高企业的决策水平和竞争能力。从大量数据中挖掘出隐含的、未知的、对决策有价值的信息的方法、工具以及工作过程,就是数据挖掘。通过数据挖掘可以在这些数据中找到其中的规律、发现数据之间的关系。数据挖掘是统计学、数据库技术和人工智能的结合产物。

    数据挖掘实施步骤

    一般的数据挖掘的实施步骤通过以下几点来进行:

    1. 明确需求
    2. 数据抽样
    3. 数据探索
    4. 数据预处理
    5. 数据挖掘建模
    6. 模型评估

    明确需求

    在开展数据挖掘开发之前,要确定用户的需求是什么。也就是说,数据挖掘系统开发完了之后,能够达到什么样的效果呢?所以,此阶段需要去了解客户的业务背景、业务过程,弄清楚客户的真正需求。

    例如:针对用户进行推荐、对销售数据进行预测分析等等。

    数据抽样

    真实的企业环境中,往往存在多种多样的数据。不是所有的数据都跟数据挖掘系统有关,我们需要从这些大量数据走过来,抽取到与目标相关的数据子集,从而减少数据处理量,节省系统资源。而且,有针对性的抽取数据,跟有利于发现真正有价值的数据。

    数据探索

    拿到抽样后的数据后,需要对数据有一个基本的认识。而不能拿到数据之后,就直接开展分析。所以,我们需要对抽样后的数据,进行初步地探索分析,去发现样本数据中是否存在某些明显的规律、或者趋势。这样方便后续对数据更有效地处理,保证后续数据的质量。例如:找到数据中的一些异常值、缺失的数据等等。

    数据预处理

    采样的数据中,往往都存在一些垃圾数据、或者是不完整、不一致的数据,这样会造成后续的分析结果是不准确的。所以,在进行数据挖掘之前,就应该对数据进行预处理来改善数据的质量。数据预处理包含了:

    • 数据筛选、过滤、清洗
    • 数据转换
    • 缺失值处理
    • 数据标准化
    • ….

    数据挖掘建模

    数据预处理之后,就可以开始来进行数据挖掘建模了。在建模之前,首先得明白,我们要解决是哪一类问题(例如:分类、聚类、关联、推荐…等等),针对该类问题,应该使用哪种算法构建模型?所以,简单理解,数据挖掘建模过程其实主要就是根据问题选择是用的算法

    模型评估

    建立数据挖掘模型之后,就可以使用该模型来进行预测、分析。预测分析的结果未必准确。我们需要对该结果进行评估或者评价。从而优化模型。要根据实际的业务情况来优化模型。

  • 相关阅读:
    Java 8的新并行API
    java lambda表达式
    用Java反射输出对象的所有属性的值
    整数划分问题
    比较常用的几个正则表达式
    bilibili的下载文件可以有多深
    vim中的宏和normal命令
    vim与正则表达式
    Manjaro软件推荐
    解决无法更新
  • 原文地址:https://www.cnblogs.com/ilovezihan/p/12240036.html
Copyright © 2011-2022 走看看