zoukankan      html  css  js  c++  java
  • R语言数据挖掘方法及应用

    R语言数据挖掘方法及应用

    第1篇 起步篇:R语言数据挖掘入门并不难

    1 数据挖掘与R语言概述

    1.1 为什么要学习数据挖掘和R语言
    1.2 什么是数据挖掘
    1.3 数据挖掘能给出什么
    1.3.1 数据挖掘结果有哪些呈现方式
    1.3.2 数据挖掘结果有哪些基本特征
    1.4 数据挖掘能解决什么问题
    1.4.1 数据预测
    1.4.2 发现数据的内在结构
    1.4.3 发现关联性
    1.4.4 模式甄别
    1.5 数据挖掘解决问题的思路
    1.对目标契合度不高的数据,怎样的建模策略能够更好地迎合分析的需要
    2.对于海量、高维数据,怎样的建模策略能够更好地揭示数据特征,提高分析效率
    3.对于复杂类型和关系数据,怎样的建模策略能够清晰地揭示数据的特征
    1.6 数据挖掘有哪些典型的商业应用
    1.6.1 数据挖掘在客户细分中的应用

    ####### 1.客户细分变量
    ####### 2.客户细分方法
    ####### 3.客户细分结果的评价和应用

    1.6.2 数据挖掘在客户流失分析中的应用
    1.6.3 数据挖掘在营销响应分析中的应用
    1.6.4 数据挖掘在交叉销售中的应用
    1.6.5 数据挖掘在欺诈甄别中的应用
    1.7 R语言入门需要知道什么
    1.7.1 什么是R的包
    1.7.2 如何获得R
    1.7.3 R如何起步

    ####### 1.R的相关概念
    ####### 2.了解R的工作环境
    ####### 3.如何获得R的帮助文档
    ####### 4.如何拓展使用包和函数

    1.7.4 R的基本操作和其他

    ####### 1.命令行方式
    ####### 2.程序运行方式
    ####### 3.程序执行结果的输出
    ####### 4.R的环境文件

    2 R语言数据挖掘起步:R对象和数据组织

    2.1 什么是R的数据对象
    2.1.1 R的数据对象有哪些类型

    ####### 1.从存储角度划分R对象
    ####### 2.从结构角度划分R对象

    2.1.2 如何创建和访问R的数据对象
    2.2 如何用R的向量组织数据
    2.2.1 创建只包含一个元素的向量
    2.2.2 创建包含多个元素的向量

    ####### 1.c函数
    ####### 2.rep重复函数
    ####### 3.seq序列函数
    ####### 4.scan键盘数据读入函数
    ####### 5.vector创建向量函数

    2.2.3 访问向量中的元素

    ####### 1.访问指定位置上的元素
    ####### 2.利用位置向量访问指定位置上的元素
    ####### 3.访问指定位置之外的元素

    2.3 如何用R的矩阵组织数据
    2.3.1 创建矩阵

    ####### 1.向量合并形成矩阵
    ####### 2.由单个向量派生矩阵

    2.3.2 访问矩阵中的元素

    ####### 1.访问指定位置上的元素
    ####### 2.访问指定行上的所有元素
    ####### 3.访问指定列上的所有元素
    ####### 4.利用编辑窗口访问矩阵元素

    2.4 如何用R的数据框组织数据
    2.4.1 创建数据框
    2.4.2 访问数据框
    2.5 如何用R的数组、列表组织数据
    2.5.1 创建和访问数组

    ####### 1.创建数组
    ####### 2.访问数组

    2.5.2 创建和访问列表

    ####### 1.创建列表
    ####### 2.访问列表

    2.6 R数据对象的相互转换
    2.6.1 不同存储类型之间的转换

    ####### 1.判断数据对象的存储类型
    ####### 2.数据对象存储类型的转换

    2.6.2 不同结构类型之间的转换

    ####### 1.向量和矩阵之间的互转
    ####### 2.向量转换为因子
    ####### 3.因子转换为向量

    2.7 如何将外部数据组织到R数据对象中
    2.7.1 将文本数据组织到R对象中

    ####### 1.读文本数据到向量
    ####### 2.读文本数据到数据框

    2.7.2 将SPSS数据组织到R对象中
    2.7.3 将数据库和Excel表数据组织到R对象中

    ####### 1.访问数据库数据
    ####### 2.访问Excel表数据

    2.7.4 将网页表格数据组织到R对象中
    2.7.5 R有哪些自带的数据包
    2.7.6 如何将R对象中的数据保存起来
    2.8 R程序设计需哪些必备知识
    2.8.1 R程序设计涉及哪些基本概念

    ####### 1.R语句
    ####### 2.R程序的控制结构

    2.8.2 R有哪些常用的系统函数

    ####### 1.数学函数
    ####### 2.概率函数
    ####### 3.统计函数
    ####### 4.矩阵运算函数
    ####### 5.字符串函数
    ####### 6.数据管理函数
    ####### 7.逻辑判断函数
    ####### 8.文件管理函数

    2.8.3 用户自定义函数提升编程水平
    2.8.4 如何提高R程序处理的能力

    ####### 1.分支结构的流程控制
    ####### 2.循环结构的流程控制

    2.9 R程序设计与数据整理综合应用
    2.9.1 综合应用一:数据的基本处理
    2.9.2 综合应用二:如何将汇总数据还原为原始数据

    3 R语言数据挖掘初体验:对数据的直观印象

    3.1 数据的直观印象
    3.1.1 R的数据可视化平台是什么
    3.1.2 R的图形组成和图形参数
    3.1.3 R的图形边界和布局
    3.1.4 如何修改R的图形参数
    3.2 如何获得单变量分布特征的直观印象
    3.2.1 核密度图:车险理赔次数的分布特点是什么

    ####### 1.图形布局
    ####### 2.hist函数
    ####### 3.添加正态分布曲线
    ####### 4.利用plot函数绘制核密度图
    ####### 5.添加数据地毯和噪声数据

    3.2.2 小提琴图:不同车型车险理赔次数的分布有差异吗

    ####### 1.小提琴图的特点
    ####### 2.title函数
    ####### 3.获得关键位置坐标
    ####### 4.在指定位置添加文字信息

    3.2.3 克利夫兰点图:车险理赔次数存在异常吗

    ####### 1.克利夫兰点图的特点
    ####### 2.添加图例

    3.3 如何获得多变量联合分布的直观印象
    3.3.1 曲面图和等高线图

    ####### 1.二元正态分布的密度曲线
    ####### 2.任意曲面图

    3.3.2 二元核密度曲面图:投保人年龄和车险理赔次数的联合分布特点是什么
    3.3.3 雷达图:不同区域气候特点有差异吗
    3.4 如何获得变量间相关性的直观印象
    3.4.1 马赛克图:车型和车龄有相关性吗
    3.4.2 散点图:这些因素会影响空气湿度吗

    ####### 1.简单散点图
    ####### 2.三维散点图和气泡图
    ####### 3.矩阵散点图
    ####### 4.分组散点图

    3.4.3 相关系数图:淘宝各行业商品成交指数有相关性吗
    3.5 如何获得GIS数据的直观印象
    3.5.1 绘制世界地图和美国地图
    3.5.2 绘制中国行政区划地图

    ####### 1.矢量型GIS数据的格式
    ####### 2.绘图步骤

    3.5.3 依据地图绘制热力图:不同省市的淘宝女装成交指数有差异吗
    3.6 如何获得文本词频数据的直观印象:政府工作报告中有哪些高频词

    第2篇 数据预测篇:立足数据预测未知

    4 基于近邻的分类预测:与近邻有趋同的选择

    4.1 近邻分析:K-近邻法
    4.1.1 K-近邻法中的距离
    4.1.2 K-近邻法中的近邻个数
    4.1.3 R的K-近邻法和模拟分析
    4.1.4 K-近邻法应用:天猫成交顾客的分类预测
    4.2 K-近邻法的适用性及特征选择
    4.2.1 K-近邻法的适用性
    4.2.2 特征选择:找到重要变量

    ####### 1.从变量自身考察
    ####### 2.从输入变量与输出变量相关性角度考察
    ####### 3.从预测误差角度考察变量

    4.3 基于变量重要性的加权K-近邻法
    4.3.1 基于变量重要性的加权K-近邻法的基本原理
    4.3.2 变量重要性判断应用:天猫成交顾客预测中的重要变量
    4.4 基于观测相似性的加权K-近邻法
    4.4.1 加权K-近邻法的权重设计
    4.4.2 加权K-近邻法的距离和相似性变换
    4.4.3 加权K-近邻法的R实现
    4.4.4 加权K-近邻法应用:天猫成交顾客的分类预测

    5 基于规则的分类和组合预测:给出易懂且稳健的预测

    5.1 决策树概述
    5.1.1 什么是决策树

    ####### 1.相关基本概念
    ####### 2.决策树的特点

    5.1.2 决策树的几何意义是什么
    5.1.3 决策树的核心问题

    ####### 1.决策树的生长
    ####### 2.决策树的修剪

    5.2 分类回归树的生长过程
    5.2.1 分类树的生长过程

    ####### 1.输出变量异质性及异质性变化的测度
    ####### 2.分类树对输入变量的处理策略

    5.2.2 回归树的生长过程
    5.2.3 损失矩阵对分类树的影响
    5.3 分类回归树的剪枝
    5.3.1 最小代价复杂度的测度
    5.3.2 分类回归树后剪枝过程
    5.3.3 分类回归树的交叉验证剪枝

    ####### 1.N折交叉验证
    ####### 2.分类回归树的交叉验证剪枝

    5.4 分类回归树的R实现和应用
    5.4.1 分类回归树的R实现

    ####### 1.建立分类回归树的R函数
    ####### 2.自行设置预修剪等参数的R函数
    ####### 3.可视化决策树的R函数
    ####### 4.复杂度参数CP对预测误差的影响

    5.4.2 分类回归树的应用:提炼不同消费行为顾客的主要特征

    ####### 1.初建分类树
    ####### 2.再建分类树

    5.5 建立分类回归树的组合预测模型:给出稳健的预测
    5.5.1 袋装技术

    ####### 1.重抽样自举法
    ####### 2.袋装过程
    ####### 3.袋装技术中变量重要性的测度

    5.5.2 袋装技术的R实现

    ####### 1.ipred包中的bagging函数
    ####### 2.adabag包中的bagging函数

    5.5.3 袋装技术的应用:稳健定位目标客户
    5.5.4 推进技术

    ####### 1.建模阶段
    ####### 2.预测阶段

    5.5.5 推进技术的R实现
    5.5.6 推进技术的应用:稳健定位目标客户
    5.6 随机森林:具有随机性的组合预测
    5.6.1 什么是随机森林

    ####### 1.构建随机森林的样本随机性
    ####### 2.构建随机森林的变量随机性
    ####### 3.随机森林对输入变量重要性的测度

    5.6.2 随机森林的R实现
    5.6.3 随机森林的应用:稳健定位目标客户

    ####### 1.随机森林的预测误差问题
    ####### 2.提取随机森林中的决策树信息
    ####### 3.随机森林中的输入变量重要性

    6 基于神经网络的分类预测:给出高精准的预测

    6.1 人工神经网络概述
    6.1.1 人工神经网络和种类

    ####### 1.从拓扑结构角度划分
    ####### 2.从连接方式角度划分

    6.1.2 节点:人工神经网络的核心处理器

    ####### 1.加法器
    ####### 2.激活函数
    ####### 3.节点的意义

    6.1.3 建立人工神经网络的一般步骤

    ####### 1.数据准备
    ####### 2.网络结构的确定
    ####### 3.确定连接权重

    6.1.4 感知机模型:确定连接权重的基本策略

    ####### 1.符号说明
    ####### 2.学习过程

    6.2 B-P反向传播网络:最常见的人工神经网络
    6.2.1 B-P反向传播网络的三大特点

    ####### 1.隐层的作用
    ####### 2.反向传播
    ####### 3.采用Sigmoid激活函数

    6.2.2 B-P反向传播算法:确定连接权重

    ####### 1.参数优化
    ####### 2.B-P连接权重W的调整

    6.2.3 学习率:影响连接权重调整的重要因素
    6.3 B-P反向传播网络的R实现和应用
    6.3.1 neuralnet包中的neuralnet函数
    6.3.2 neuralnet函数的应用:精准预测顾客的消费行为

    ####### 1.建立神经网络模型
    ####### 2.评价输入变量的重要性
    ####### 3.比较输入变量不同水平组合对输出变量的影响

    6.3.3 利用ROC曲线确定概率分割值

    ####### 1.什么是ROC曲线
    ####### 2.绘制ROC曲线的R函数
    ####### 3.应用

    6.3.4 nnet包中的nnet函数

    ####### 1.nnet函数
    ####### 2.应用

    7 基于支持向量的分类预测:给出最大把握的预测

    7.1 支持向量分类概述
    7.1.1 支持向量分类的基本思路:确保把握程度
    7.1.2 支持向量分类的三种情况
    7.2 理想条件下的分类:线性可分问题下的支持向量分类
    7.2.1 如何求解超平面
    7.2.2 如何利用超平面进行分类预测
    7.3 一般条件下的分类:广义线性可分时的支持向量分类
    7.3.1 如何求解超平面
    7.3.2 可调参数的意义:把握程度和精度的权衡
    7.4 复杂条件下的分类:线性不可分时支持向量分类
    7.4.1 线性不可分的一般解决途径和维灾难问题
    7.4.2 支持向量分类克服维灾难的途径
    7.5 多分类的支持向量分类:二分类的拓展
    7.6 支持向量回归:解决数值预测问题
    7.6.1 支持向量回归与一般线性回归:目标和策略
    7.6.2 支持向量回归的基本思路
    7.7 支持向量机的R实现及应用
    7.7.1 支持向量机的R实现

    ####### 1.svm函数
    ####### 2.tune.svm函数

    7.7.2 利用R模拟线性可分下的支持向量分类
    7.7.3 利用R模拟线性不可分下的支持向量分类
    7.7.4 利用R模拟多分类的支持向量分类
    7.7.5 支持向量分类应用:天猫成交顾客的预测

    第3篇 数据分组篇:发现数据中的自然群组

    8 常规聚类:直观的数据全方位自动分组

    8.1 聚类分析概述
    8.1.1 聚类分析目标:发现数据中的“自然小类”
    8.1.2 有哪些主流的聚类算法
    8.2 基于质心的聚类:K-Means聚类
    8.2.1 K-Means聚类中的距离测度:体现全方位性
    8.2.2 K-Means聚类过程:多次自动分组
    8.2.3 K-Means聚类的R实现和模拟分析

    ####### 1.R函数
    ####### 2.用R对模拟数据进行K-Means聚类

    8.2.4 K-Means聚类的应用:环境污染的区域划分
    8.3 PAM聚类:改进的K-Means聚类
    8.3.1 PAM聚类过程
    8.3.2 PAM聚类的R实现和模拟分析

    ####### 1.R函数
    ####### 2.用R对模拟数据进行PAM聚类

    8.4 基于联通性的聚类:层次聚类
    8.4.1 层次聚类的基本过程

    ####### 1.基本过程
    ####### 2.层次聚类中距离的联通性测度

    8.4.2 层次聚类的R实现和应用:环境污染的区域划分
    8.5 基于统计分布的聚类:EM聚类
    8.5.1 基于统计分布的聚类出发点:有限混合分布
    8.5.2 EM聚类:如何估计类参数和聚类解

    ####### 1.EM聚类基本原理
    ####### 2.EM聚类中的聚类数目问题

    8.5.3 EM聚类的R实现和模拟分析

    ####### 1.R函数
    ####### 2.模拟数据的EM聚类

    8.5.4 EM聚类的应用:环境污染的区域划分

    9 特色聚类:数据分组还可以这样做

    9.1 BIRCH聚类概述
    9.1.1 BIRCH聚类有哪些特点
    9.1.2 聚类特征和聚类特征树:BIRCH聚类的重要策略

    ####### 1.聚类特征
    ####### 2.聚类特征树

    9.1.3 BIRCH的聚类过程:由存储空间决定的动态聚类
    9.1.4 BIRCH聚类的R实现

    ####### 1.R函数
    ####### 2.模拟数据的BIRCH聚类示例

    9.1.5 BIRCH聚类应用:两期岗位培训的比较
    9.2 SOM网络聚类概述
    9.2.1 SOM网络聚类设计出发点
    9.2.2 SOM网络的拓扑结构和聚类原理

    ####### 1.SOM网络的拓扑结构
    ####### 2.SOM网络的聚类过程

    9.2.3 SOM网络聚类的R实现

    ####### 1.som函数
    ####### 2.SOM网络聚类的可视化函数
    ####### 3.模拟数据的SOM网络聚类示例

    9.2.4 SOM网络聚类应用:手写邮政编码识别

    ####### 1.数据和应用问题
    ####### 2.研究步骤

    9.2.5 拓展SOM网络:红酒品质预测

    ####### 1.预测途径
    ####### 2.R实现
    ####### 3.拓展SOM网络预测应用

    9.3 基于密度的聚类模型:DBSCAN聚类
    9.3.1 DBSCAN聚类原理:密度可达性是核心

    ####### 1.DBSCAN聚类的相关概念
    ####### 2.DBSCAN聚类过程

    9.3.2 DBSCAN聚类的R实现
    9.3.3 DBSCAN聚类的模拟分析

    第4篇 数据关联篇:发现数据的内在关联性

    10 发现数据中的关联特征:关联是推荐的依据

    10.1 简单关联规则及其测度
    10.1.1 什么是简单关联规则

    ####### 1.事务和项集
    ####### 2.简单关联规则

    10.1.2 如何评价简单关联规则的有效性
    10.1.3 如何评价简单关联规则的实用性
    10.2 Apriori算法:发现简单关联规则的高效算法
    10.2.1 搜索频繁项集:Apriori算法的重中之重

    ####### 1.频繁项集
    ####### 2.寻找频繁项集

    10.2.2 依最大频繁项集产生简单关联规则:水到渠成
    10.2.3 Apriori算法的R实现和应用示例

    ####### 1.建立事务数据集对象
    ####### 2.搜索频繁项集,生成有效的简单关联规则
    ####### 3.筛选关联规则

    10.2.4 简单关联的可视化R实现和应用示例

    ####### 1.可视化频繁项集
    ####### 2.可视化简单关联规则

    10.3 Eclat算法:更快速地发现频繁项集
    10.3.1 Eclat算法原理:对等类是核心
    10.3.2 Eclat算法的R实现和应用示例
    10.4 简单关联分析的应用:商品推荐
    10.4.1 发现连带销售商品
    10.4.2 顾客选择性倾向对比
    10.5 序列关联分析及SPADE算法:发现数据中的时序关联性
    10.5.1 序列关联中有哪些基本概念

    ####### 1.序列
    ####### 2.序列关联规则
    ####### 3.如何生成序列关联规则

    10.5.2 SPADE算法:发现序列关联规则的高效算法

    ####### 1.纵向id列表
    ####### 2.基于对等类的候选序列组合方式
    ####### 3.序列关联分析中的时间约束

    10.5.3 序列关联分析的R实现及应用示例

    ####### 1.管理事务序列数据的R函数
    ####### 2.SPADE算法的R函数
    ####### 3.序列关联分析的示例

    10.6 序列关联分析应用:发现网民的浏览习惯

    11 复杂网络分析初步:基于关系的研究

    11.1 网络的定义表示及构建:复杂网络分析的第一步
    11.1.1 网络的图论定义及R实现

    ####### 1.无向网络相关概念和R函数
    ####### 2.有向网络、相关概念和R函数
    ####### 3.无权网络和加权网络
    ####### 4.1-模网络、2-模网络和R函数

    11.1.2 网络的矩阵表示方式及R实现

    ####### 1.邻接矩阵和R函数
    ####### 2.关系矩阵和R函数

    11.1.3 R的网络数据文件和建立网络对象

    ####### 1.利用邻接矩阵建立网络对象及示例
    ####### 2.利用关系矩阵建立2-模网络对象及示例
    ####### 3.利用连接列表建立网络对象及示例

    11.1.4 R的网络可视化
    11.2 网络节点重要性的测度:谁是网络的“主导”
    11.2.1 度和测地线距离

    ####### 1.度和相关R函数
    ####### 2.测地线距离和相关R函数

    11.2.2 点度中心度和接近中心度:节点“中心”作用的测度

    ####### 1.点度中心度
    ####### 2.接近中心度
    ####### 3.点度中心度和接近中心度的R函数和示例
    ####### 4.计算点度中心度和接近中心度的必要性探讨

    11.2.3 中间中心度:节点“枢纽”作用的测度

    ####### 1.中间中心度
    ####### 2.中间中心度R函数和示例

    11.2.4 节点重要性的其他方面:结构洞和关节点、特征向量中心度和PageRank得分

    ####### 1.结构洞和关节点及R函数
    ####### 2.特征向量中心度和R函数
    ####### 3.PageRank得分和R函数

    11.3 网络子群构成特征研究:找到网络中的“小团体”
    11.3.1 二元关系和三元关系及R实现

    ####### 1.二元关系
    ####### 2.三元关系
    ####### 3.R函数和示例

    11.3.2 派系和k-核及R实现

    ####### 1.派系及R函数
    ####### 2.k-核及R函数

    11.3.3 社区和组件及R实现

    ####### 1.社区及R函数
    ####### 2.组件及R函数

    11.4 网络整体特征刻画:整体关系是这样的
    11.4.1 网络整体特征的测度

    ####### 1.网络密度和R函数
    ####### 2.平均测地线距离和R函数
    ####### 3.网络聚类系数和R函数
    ####### 4.谱半径

    11.4.2 网络特征的各种分布和度量

    ####### 1.各种分布
    ####### 2.度分布特征的度量

    11.5 主要网络类型及特点:多姿多彩的网络世界
    11.5.1 规则网络及特点
    11.5.2 随机网络及特点

    ####### 1.随机网络的节点度分布和R函数
    ####### 2.随机网络的熵

    11.5.3 小世界网络及特点
    11.5.4 无标度网络及特点

    ####### 1.BA规则
    ####### 2.BA网络的度分布特征
    ####### 3.BA网络的熵

    第5篇 离群数据探索篇:发现数据中的离群点

    12 模式甄别:诊断异常数据

    12.1 模式甄别方法和评价概述
    12.1.1 模式甄别方法

    ####### 1.甄别历史上尚未出现过的模式
    ####### 2.甄别历史上曾经出现过的模式行为

    12.1.2 模式甄别结果及评价:风险评分

    ####### 1.模式甄别结果是风险评分
    ####### 2.模式甄别效果的评价

    12.2 模式甄别的无监督侦测方法及应用示例
    12.2.1 依概率侦测模式及R应用示例
    12.2.2 依距离侦测模式:DB方法及R应用示例
    12.2.3 依密度侦测模式:LOF方法及R应用示例

    ####### 1.LOF方法
    ####### 2.LOF方法的R函数及应用示例

    12.3 模式甄别的有监督侦测方法及应用示例
    12.3.1 朴素贝叶斯分类法及示例

    ####### 1.朴素贝叶斯分类法概述
    ####### 2.利用朴素贝叶斯分类法侦测模式
    ####### 3.朴素贝叶斯分类法的R函数及示例

    12.3.2 Logistic回归及示例
    12.3.3 非平衡数据集的SMOTE处理

    ####### 1.SMOTE算法原理
    ####### 2.SMOTE算法的R函数及示例

    12.4 模式甄别的半监督侦测方法及应用示例
    12.4.1 半监督分类:自训练分类模型
    12.4.2 自训练分类模型的R实现及应用示例

    ####### 1.R函数
    ####### 2.示例

    思维导图

    R语言数据挖掘方法及应用

    防止博客图床图片失效,防止图片源站外链:

    http://www.processon.com/chart_image/5e5b46a5e4b069f82a1a6e9b.png)

    思维导图在线编辑链接:

    https://www.processon.com/view/5e5b46a5e4b069f82a1a6e98

  • 相关阅读:
    Linux XOR.DDoS样本取证特征与清除
    利用Volatility对Linux内存取证分析-常用命令翻译
    【黑客免杀攻防】读书笔记14
    CertUtil.exe被利用来下载恶意软件
    利用rundll32执行程序的函数执行程序
    揭秘Patchwork APT攻击-恶意软件样本BADNEWS
    【CTF MISC】pyc文件反编译到Python源码-2017世安杯CTF writeup详解
    [ 总结 ] 删除通过find查找到的文件
    [ 脚本 ] RHEL6.x 及Centos6.x 初始化脚本
    [ 手记 ] 联想rd650服务器整列及系统安装
  • 原文地址:https://www.cnblogs.com/jingle1267/p/13335155.html
Copyright © 2011-2022 走看看