zoukankan      html  css  js  c++  java
  • 《R语言数据挖掘》读书笔记:一、预备知识

    写在前面:此系列文章以《R语言数据挖掘》为主线,记录自己学习数据挖掘和算法的过程。

    还引用了大量前辈的博客总结,先谢过。

    第一章、预备知识

        1.大数据

        2.数据源

        3.数据挖掘

            数据挖掘算法与数据结构算法对比: https://www.cnblogs.com/Alear/p/10840230.html

            数据挖掘领域十大经典算法  https://blog.csdn.net/fuqiuai/article/category/7488244

            3.1特征提取

                频繁项集:找出一堆项目中出现最为频繁、关系最为密切的一个子集。

                相似项:一对数据集,他们拥有较大比例的共同元素。

            3.2数据挖掘目标

                使相同类中的点彼此之间距离较小,而不同的类中的点彼此之间距离较大。

            3.3数据挖掘过程

               CRISP-DM (Cross-industry Standard Process for Data Mining)跨行业数据挖掘标准过程

              SEMMA(Sample,Explore,Modify,Model,Assess)采样、探索、修正、建模、评估

        4.社交挖掘

        5.文本挖掘

        6.网络数据挖掘

        7.R语言优缺点

        8.统计学

            8.1统计学与数据挖掘

                统计模型用来总结数据集合,也可以用于验证数据挖掘结果

            8.2统计学与机器学习

                统计检验用来验证机器学习模型和评估机器学习算法,机器学习技术与标准统计技术可以有机结合。

            8.3数据挖掘中统计学的局限性

                在试图提取并不真正存在于数据中的信息时可能会犯错误。关键名词:Bonferroni原则

        9.机器学习

            9.1机器学习是什么

                应用于机器学习算法的数据集称为训练集,它由一组成对的数据(x,y)构成,称为训练样本。

                机器学习过程的目的就是发现一个函数y=f(x),他能最好地预测与每一个x值相关联的y值。

            9.2机器学习方法

                决策树

                感知器:一般是应用于向量x={x1,x2,...,xn}分量的阈值函数

                神经网络:这些是有感知器的非循环网络,某些感知器的输出用作其他感知器的输入

                基于实例的学习:此方法使用整个训练集来表示函数f

                支持向量机:该类的结果是一个分类器,它对未知数更准确。

            9.3机器学习架构

                训练和测试、批处理与在线学习、特征选择、创建训练集

        10.数据属性与描述

            10.1数据描述

                集中趋势的度量、数据的离散程度的度量(全距、四分位数、四分位数间距等)

        11.数据清洗

            数据清洗试图填补缺失值、发现异常值同时平滑噪声、修正数据中的不一致性。数据清洗通常是一个两步迭代的过程,由差异检测和数据变换构成。

        12.数据集成

            将多个数据源中的数据合并,形成一个一致的数据存储

        13.数据降维

            13.1特征值和特征向量

             13.2主成分分析PCA

             13.3奇异值分解SVD

             13.4CUR分解

        14.数据变化与离散化

            把数据格式变成一些数据便于适合数据挖掘算法的格式,以便作为数据处理前特定数据挖掘算法的输入。

        15.数据可视化

                

    人生的奔跑不在于瞬间的爆发,而在于途中的坚持。
  • 相关阅读:
    miniconda安装和使用
    linux下git push出现“更新被拒绝,因为远程仓库包含您本地尚不存在的提交。”问题的处理
    win8、win10系统添加组策略的方法
    Unable to guess the mime type as no guessers are available (Did you enable the php_fileinfo extension?)
    thinkphp5 连接SQLserver
    thinkphp5 上传图片压缩
    在Vue中使用了Swiper ,从后台获取动态数据后,swiper滑动失效
    微信小程序多图上传及后台处理(后台用thinkphp3.2)
    PHP 数组下标从0开始
    微信小程序去除左上角返回的按钮
  • 原文地址:https://www.cnblogs.com/Nelsonblog/p/11787361.html
Copyright © 2011-2022 走看看