R语言数据挖掘方法及应用
第1篇 起步篇:R语言数据挖掘入门并不难
1 数据挖掘与R语言概述
1.1 为什么要学习数据挖掘和R语言
1.2 什么是数据挖掘
1.3 数据挖掘能给出什么
1.3.1 数据挖掘结果有哪些呈现方式
1.3.2 数据挖掘结果有哪些基本特征
1.4 数据挖掘能解决什么问题
1.4.1 数据预测
1.4.2 发现数据的内在结构
1.4.3 发现关联性
1.4.4 模式甄别
1.5 数据挖掘解决问题的思路
1.对目标契合度不高的数据,怎样的建模策略能够更好地迎合分析的需要
2.对于海量、高维数据,怎样的建模策略能够更好地揭示数据特征,提高分析效率
3.对于复杂类型和关系数据,怎样的建模策略能够清晰地揭示数据的特征
1.6 数据挖掘有哪些典型的商业应用
1.6.1 数据挖掘在客户细分中的应用
####### 1.客户细分变量
####### 2.客户细分方法
####### 3.客户细分结果的评价和应用
1.6.2 数据挖掘在客户流失分析中的应用
1.6.3 数据挖掘在营销响应分析中的应用
1.6.4 数据挖掘在交叉销售中的应用
1.6.5 数据挖掘在欺诈甄别中的应用
1.7 R语言入门需要知道什么
1.7.1 什么是R的包
1.7.2 如何获得R
1.7.3 R如何起步
####### 1.R的相关概念
####### 2.了解R的工作环境
####### 3.如何获得R的帮助文档
####### 4.如何拓展使用包和函数
1.7.4 R的基本操作和其他
####### 1.命令行方式
####### 2.程序运行方式
####### 3.程序执行结果的输出
####### 4.R的环境文件
2 R语言数据挖掘起步:R对象和数据组织
2.1 什么是R的数据对象
2.1.1 R的数据对象有哪些类型
####### 1.从存储角度划分R对象
####### 2.从结构角度划分R对象
2.1.2 如何创建和访问R的数据对象
2.2 如何用R的向量组织数据
2.2.1 创建只包含一个元素的向量
2.2.2 创建包含多个元素的向量
####### 1.c函数
####### 2.rep重复函数
####### 3.seq序列函数
####### 4.scan键盘数据读入函数
####### 5.vector创建向量函数
2.2.3 访问向量中的元素
####### 1.访问指定位置上的元素
####### 2.利用位置向量访问指定位置上的元素
####### 3.访问指定位置之外的元素
2.3 如何用R的矩阵组织数据
2.3.1 创建矩阵
####### 1.向量合并形成矩阵
####### 2.由单个向量派生矩阵
2.3.2 访问矩阵中的元素
####### 1.访问指定位置上的元素
####### 2.访问指定行上的所有元素
####### 3.访问指定列上的所有元素
####### 4.利用编辑窗口访问矩阵元素
2.4 如何用R的数据框组织数据
2.4.1 创建数据框
2.4.2 访问数据框
2.5 如何用R的数组、列表组织数据
2.5.1 创建和访问数组
####### 1.创建数组
####### 2.访问数组
2.5.2 创建和访问列表
####### 1.创建列表
####### 2.访问列表
2.6 R数据对象的相互转换
2.6.1 不同存储类型之间的转换
####### 1.判断数据对象的存储类型
####### 2.数据对象存储类型的转换
2.6.2 不同结构类型之间的转换
####### 1.向量和矩阵之间的互转
####### 2.向量转换为因子
####### 3.因子转换为向量
2.7 如何将外部数据组织到R数据对象中
2.7.1 将文本数据组织到R对象中
####### 1.读文本数据到向量
####### 2.读文本数据到数据框
2.7.2 将SPSS数据组织到R对象中
2.7.3 将数据库和Excel表数据组织到R对象中
####### 1.访问数据库数据
####### 2.访问Excel表数据
2.7.4 将网页表格数据组织到R对象中
2.7.5 R有哪些自带的数据包
2.7.6 如何将R对象中的数据保存起来
2.8 R程序设计需哪些必备知识
2.8.1 R程序设计涉及哪些基本概念
####### 1.R语句
####### 2.R程序的控制结构
2.8.2 R有哪些常用的系统函数
####### 1.数学函数
####### 2.概率函数
####### 3.统计函数
####### 4.矩阵运算函数
####### 5.字符串函数
####### 6.数据管理函数
####### 7.逻辑判断函数
####### 8.文件管理函数
2.8.3 用户自定义函数提升编程水平
2.8.4 如何提高R程序处理的能力
####### 1.分支结构的流程控制
####### 2.循环结构的流程控制
2.9 R程序设计与数据整理综合应用
2.9.1 综合应用一:数据的基本处理
2.9.2 综合应用二:如何将汇总数据还原为原始数据
3 R语言数据挖掘初体验:对数据的直观印象
3.1 数据的直观印象
3.1.1 R的数据可视化平台是什么
3.1.2 R的图形组成和图形参数
3.1.3 R的图形边界和布局
3.1.4 如何修改R的图形参数
3.2 如何获得单变量分布特征的直观印象
3.2.1 核密度图:车险理赔次数的分布特点是什么
####### 1.图形布局
####### 2.hist函数
####### 3.添加正态分布曲线
####### 4.利用plot函数绘制核密度图
####### 5.添加数据地毯和噪声数据
3.2.2 小提琴图:不同车型车险理赔次数的分布有差异吗
####### 1.小提琴图的特点
####### 2.title函数
####### 3.获得关键位置坐标
####### 4.在指定位置添加文字信息
3.2.3 克利夫兰点图:车险理赔次数存在异常吗
####### 1.克利夫兰点图的特点
####### 2.添加图例
3.3 如何获得多变量联合分布的直观印象
3.3.1 曲面图和等高线图
####### 1.二元正态分布的密度曲线
####### 2.任意曲面图
3.3.2 二元核密度曲面图:投保人年龄和车险理赔次数的联合分布特点是什么
3.3.3 雷达图:不同区域气候特点有差异吗
3.4 如何获得变量间相关性的直观印象
3.4.1 马赛克图:车型和车龄有相关性吗
3.4.2 散点图:这些因素会影响空气湿度吗
####### 1.简单散点图
####### 2.三维散点图和气泡图
####### 3.矩阵散点图
####### 4.分组散点图
3.4.3 相关系数图:淘宝各行业商品成交指数有相关性吗
3.5 如何获得GIS数据的直观印象
3.5.1 绘制世界地图和美国地图
3.5.2 绘制中国行政区划地图
####### 1.矢量型GIS数据的格式
####### 2.绘图步骤
3.5.3 依据地图绘制热力图:不同省市的淘宝女装成交指数有差异吗
3.6 如何获得文本词频数据的直观印象:政府工作报告中有哪些高频词
第2篇 数据预测篇:立足数据预测未知
4 基于近邻的分类预测:与近邻有趋同的选择
4.1 近邻分析:K-近邻法
4.1.1 K-近邻法中的距离
4.1.2 K-近邻法中的近邻个数
4.1.3 R的K-近邻法和模拟分析
4.1.4 K-近邻法应用:天猫成交顾客的分类预测
4.2 K-近邻法的适用性及特征选择
4.2.1 K-近邻法的适用性
4.2.2 特征选择:找到重要变量
####### 1.从变量自身考察
####### 2.从输入变量与输出变量相关性角度考察
####### 3.从预测误差角度考察变量
4.3 基于变量重要性的加权K-近邻法
4.3.1 基于变量重要性的加权K-近邻法的基本原理
4.3.2 变量重要性判断应用:天猫成交顾客预测中的重要变量
4.4 基于观测相似性的加权K-近邻法
4.4.1 加权K-近邻法的权重设计
4.4.2 加权K-近邻法的距离和相似性变换
4.4.3 加权K-近邻法的R实现
4.4.4 加权K-近邻法应用:天猫成交顾客的分类预测
5 基于规则的分类和组合预测:给出易懂且稳健的预测
5.1 决策树概述
5.1.1 什么是决策树
####### 1.相关基本概念
####### 2.决策树的特点
5.1.2 决策树的几何意义是什么
5.1.3 决策树的核心问题
####### 1.决策树的生长
####### 2.决策树的修剪
5.2 分类回归树的生长过程
5.2.1 分类树的生长过程
####### 1.输出变量异质性及异质性变化的测度
####### 2.分类树对输入变量的处理策略
5.2.2 回归树的生长过程
5.2.3 损失矩阵对分类树的影响
5.3 分类回归树的剪枝
5.3.1 最小代价复杂度的测度
5.3.2 分类回归树后剪枝过程
5.3.3 分类回归树的交叉验证剪枝
####### 1.N折交叉验证
####### 2.分类回归树的交叉验证剪枝
5.4 分类回归树的R实现和应用
5.4.1 分类回归树的R实现
####### 1.建立分类回归树的R函数
####### 2.自行设置预修剪等参数的R函数
####### 3.可视化决策树的R函数
####### 4.复杂度参数CP对预测误差的影响
5.4.2 分类回归树的应用:提炼不同消费行为顾客的主要特征
####### 1.初建分类树
####### 2.再建分类树
5.5 建立分类回归树的组合预测模型:给出稳健的预测
5.5.1 袋装技术
####### 1.重抽样自举法
####### 2.袋装过程
####### 3.袋装技术中变量重要性的测度
5.5.2 袋装技术的R实现
####### 1.ipred包中的bagging函数
####### 2.adabag包中的bagging函数
5.5.3 袋装技术的应用:稳健定位目标客户
5.5.4 推进技术
####### 1.建模阶段
####### 2.预测阶段
5.5.5 推进技术的R实现
5.5.6 推进技术的应用:稳健定位目标客户
5.6 随机森林:具有随机性的组合预测
5.6.1 什么是随机森林
####### 1.构建随机森林的样本随机性
####### 2.构建随机森林的变量随机性
####### 3.随机森林对输入变量重要性的测度
5.6.2 随机森林的R实现
5.6.3 随机森林的应用:稳健定位目标客户
####### 1.随机森林的预测误差问题
####### 2.提取随机森林中的决策树信息
####### 3.随机森林中的输入变量重要性
6 基于神经网络的分类预测:给出高精准的预测
6.1 人工神经网络概述
6.1.1 人工神经网络和种类
####### 1.从拓扑结构角度划分
####### 2.从连接方式角度划分
6.1.2 节点:人工神经网络的核心处理器
####### 1.加法器
####### 2.激活函数
####### 3.节点的意义
6.1.3 建立人工神经网络的一般步骤
####### 1.数据准备
####### 2.网络结构的确定
####### 3.确定连接权重
6.1.4 感知机模型:确定连接权重的基本策略
####### 1.符号说明
####### 2.学习过程
6.2 B-P反向传播网络:最常见的人工神经网络
6.2.1 B-P反向传播网络的三大特点
####### 1.隐层的作用
####### 2.反向传播
####### 3.采用Sigmoid激活函数
6.2.2 B-P反向传播算法:确定连接权重
####### 1.参数优化
####### 2.B-P连接权重W的调整
6.2.3 学习率:影响连接权重调整的重要因素
6.3 B-P反向传播网络的R实现和应用
6.3.1 neuralnet包中的neuralnet函数
6.3.2 neuralnet函数的应用:精准预测顾客的消费行为
####### 1.建立神经网络模型
####### 2.评价输入变量的重要性
####### 3.比较输入变量不同水平组合对输出变量的影响
6.3.3 利用ROC曲线确定概率分割值
####### 1.什么是ROC曲线
####### 2.绘制ROC曲线的R函数
####### 3.应用
6.3.4 nnet包中的nnet函数
####### 1.nnet函数
####### 2.应用
7 基于支持向量的分类预测:给出最大把握的预测
7.1 支持向量分类概述
7.1.1 支持向量分类的基本思路:确保把握程度
7.1.2 支持向量分类的三种情况
7.2 理想条件下的分类:线性可分问题下的支持向量分类
7.2.1 如何求解超平面
7.2.2 如何利用超平面进行分类预测
7.3 一般条件下的分类:广义线性可分时的支持向量分类
7.3.1 如何求解超平面
7.3.2 可调参数的意义:把握程度和精度的权衡
7.4 复杂条件下的分类:线性不可分时支持向量分类
7.4.1 线性不可分的一般解决途径和维灾难问题
7.4.2 支持向量分类克服维灾难的途径
7.5 多分类的支持向量分类:二分类的拓展
7.6 支持向量回归:解决数值预测问题
7.6.1 支持向量回归与一般线性回归:目标和策略
7.6.2 支持向量回归的基本思路
7.7 支持向量机的R实现及应用
7.7.1 支持向量机的R实现
####### 1.svm函数
####### 2.tune.svm函数
7.7.2 利用R模拟线性可分下的支持向量分类
7.7.3 利用R模拟线性不可分下的支持向量分类
7.7.4 利用R模拟多分类的支持向量分类
7.7.5 支持向量分类应用:天猫成交顾客的预测
第3篇 数据分组篇:发现数据中的自然群组
8 常规聚类:直观的数据全方位自动分组
8.1 聚类分析概述
8.1.1 聚类分析目标:发现数据中的“自然小类”
8.1.2 有哪些主流的聚类算法
8.2 基于质心的聚类:K-Means聚类
8.2.1 K-Means聚类中的距离测度:体现全方位性
8.2.2 K-Means聚类过程:多次自动分组
8.2.3 K-Means聚类的R实现和模拟分析
####### 1.R函数
####### 2.用R对模拟数据进行K-Means聚类
8.2.4 K-Means聚类的应用:环境污染的区域划分
8.3 PAM聚类:改进的K-Means聚类
8.3.1 PAM聚类过程
8.3.2 PAM聚类的R实现和模拟分析
####### 1.R函数
####### 2.用R对模拟数据进行PAM聚类
8.4 基于联通性的聚类:层次聚类
8.4.1 层次聚类的基本过程
####### 1.基本过程
####### 2.层次聚类中距离的联通性测度
8.4.2 层次聚类的R实现和应用:环境污染的区域划分
8.5 基于统计分布的聚类:EM聚类
8.5.1 基于统计分布的聚类出发点:有限混合分布
8.5.2 EM聚类:如何估计类参数和聚类解
####### 1.EM聚类基本原理
####### 2.EM聚类中的聚类数目问题
8.5.3 EM聚类的R实现和模拟分析
####### 1.R函数
####### 2.模拟数据的EM聚类
8.5.4 EM聚类的应用:环境污染的区域划分
9 特色聚类:数据分组还可以这样做
9.1 BIRCH聚类概述
9.1.1 BIRCH聚类有哪些特点
9.1.2 聚类特征和聚类特征树:BIRCH聚类的重要策略
####### 1.聚类特征
####### 2.聚类特征树
9.1.3 BIRCH的聚类过程:由存储空间决定的动态聚类
9.1.4 BIRCH聚类的R实现
####### 1.R函数
####### 2.模拟数据的BIRCH聚类示例
9.1.5 BIRCH聚类应用:两期岗位培训的比较
9.2 SOM网络聚类概述
9.2.1 SOM网络聚类设计出发点
9.2.2 SOM网络的拓扑结构和聚类原理
####### 1.SOM网络的拓扑结构
####### 2.SOM网络的聚类过程
9.2.3 SOM网络聚类的R实现
####### 1.som函数
####### 2.SOM网络聚类的可视化函数
####### 3.模拟数据的SOM网络聚类示例
9.2.4 SOM网络聚类应用:手写邮政编码识别
####### 1.数据和应用问题
####### 2.研究步骤
9.2.5 拓展SOM网络:红酒品质预测
####### 1.预测途径
####### 2.R实现
####### 3.拓展SOM网络预测应用
9.3 基于密度的聚类模型:DBSCAN聚类
9.3.1 DBSCAN聚类原理:密度可达性是核心
####### 1.DBSCAN聚类的相关概念
####### 2.DBSCAN聚类过程
9.3.2 DBSCAN聚类的R实现
9.3.3 DBSCAN聚类的模拟分析
第4篇 数据关联篇:发现数据的内在关联性
10 发现数据中的关联特征:关联是推荐的依据
10.1 简单关联规则及其测度
10.1.1 什么是简单关联规则
####### 1.事务和项集
####### 2.简单关联规则
10.1.2 如何评价简单关联规则的有效性
10.1.3 如何评价简单关联规则的实用性
10.2 Apriori算法:发现简单关联规则的高效算法
10.2.1 搜索频繁项集:Apriori算法的重中之重
####### 1.频繁项集
####### 2.寻找频繁项集
10.2.2 依最大频繁项集产生简单关联规则:水到渠成
10.2.3 Apriori算法的R实现和应用示例
####### 1.建立事务数据集对象
####### 2.搜索频繁项集,生成有效的简单关联规则
####### 3.筛选关联规则
10.2.4 简单关联的可视化R实现和应用示例
####### 1.可视化频繁项集
####### 2.可视化简单关联规则
10.3 Eclat算法:更快速地发现频繁项集
10.3.1 Eclat算法原理:对等类是核心
10.3.2 Eclat算法的R实现和应用示例
10.4 简单关联分析的应用:商品推荐
10.4.1 发现连带销售商品
10.4.2 顾客选择性倾向对比
10.5 序列关联分析及SPADE算法:发现数据中的时序关联性
10.5.1 序列关联中有哪些基本概念
####### 1.序列
####### 2.序列关联规则
####### 3.如何生成序列关联规则
10.5.2 SPADE算法:发现序列关联规则的高效算法
####### 1.纵向id列表
####### 2.基于对等类的候选序列组合方式
####### 3.序列关联分析中的时间约束
10.5.3 序列关联分析的R实现及应用示例
####### 1.管理事务序列数据的R函数
####### 2.SPADE算法的R函数
####### 3.序列关联分析的示例
10.6 序列关联分析应用:发现网民的浏览习惯
11 复杂网络分析初步:基于关系的研究
11.1 网络的定义表示及构建:复杂网络分析的第一步
11.1.1 网络的图论定义及R实现
####### 1.无向网络相关概念和R函数
####### 2.有向网络、相关概念和R函数
####### 3.无权网络和加权网络
####### 4.1-模网络、2-模网络和R函数
11.1.2 网络的矩阵表示方式及R实现
####### 1.邻接矩阵和R函数
####### 2.关系矩阵和R函数
11.1.3 R的网络数据文件和建立网络对象
####### 1.利用邻接矩阵建立网络对象及示例
####### 2.利用关系矩阵建立2-模网络对象及示例
####### 3.利用连接列表建立网络对象及示例
11.1.4 R的网络可视化
11.2 网络节点重要性的测度:谁是网络的“主导”
11.2.1 度和测地线距离
####### 1.度和相关R函数
####### 2.测地线距离和相关R函数
11.2.2 点度中心度和接近中心度:节点“中心”作用的测度
####### 1.点度中心度
####### 2.接近中心度
####### 3.点度中心度和接近中心度的R函数和示例
####### 4.计算点度中心度和接近中心度的必要性探讨
11.2.3 中间中心度:节点“枢纽”作用的测度
####### 1.中间中心度
####### 2.中间中心度R函数和示例
11.2.4 节点重要性的其他方面:结构洞和关节点、特征向量中心度和PageRank得分
####### 1.结构洞和关节点及R函数
####### 2.特征向量中心度和R函数
####### 3.PageRank得分和R函数
11.3 网络子群构成特征研究:找到网络中的“小团体”
11.3.1 二元关系和三元关系及R实现
####### 1.二元关系
####### 2.三元关系
####### 3.R函数和示例
11.3.2 派系和k-核及R实现
####### 1.派系及R函数
####### 2.k-核及R函数
11.3.3 社区和组件及R实现
####### 1.社区及R函数
####### 2.组件及R函数
11.4 网络整体特征刻画:整体关系是这样的
11.4.1 网络整体特征的测度
####### 1.网络密度和R函数
####### 2.平均测地线距离和R函数
####### 3.网络聚类系数和R函数
####### 4.谱半径
11.4.2 网络特征的各种分布和度量
####### 1.各种分布
####### 2.度分布特征的度量
11.5 主要网络类型及特点:多姿多彩的网络世界
11.5.1 规则网络及特点
11.5.2 随机网络及特点
####### 1.随机网络的节点度分布和R函数
####### 2.随机网络的熵
11.5.3 小世界网络及特点
11.5.4 无标度网络及特点
####### 1.BA规则
####### 2.BA网络的度分布特征
####### 3.BA网络的熵
第5篇 离群数据探索篇:发现数据中的离群点
12 模式甄别:诊断异常数据
12.1 模式甄别方法和评价概述
12.1.1 模式甄别方法
####### 1.甄别历史上尚未出现过的模式
####### 2.甄别历史上曾经出现过的模式行为
12.1.2 模式甄别结果及评价:风险评分
####### 1.模式甄别结果是风险评分
####### 2.模式甄别效果的评价
12.2 模式甄别的无监督侦测方法及应用示例
12.2.1 依概率侦测模式及R应用示例
12.2.2 依距离侦测模式:DB方法及R应用示例
12.2.3 依密度侦测模式:LOF方法及R应用示例
####### 1.LOF方法
####### 2.LOF方法的R函数及应用示例
12.3 模式甄别的有监督侦测方法及应用示例
12.3.1 朴素贝叶斯分类法及示例
####### 1.朴素贝叶斯分类法概述
####### 2.利用朴素贝叶斯分类法侦测模式
####### 3.朴素贝叶斯分类法的R函数及示例
12.3.2 Logistic回归及示例
12.3.3 非平衡数据集的SMOTE处理
####### 1.SMOTE算法原理
####### 2.SMOTE算法的R函数及示例
12.4 模式甄别的半监督侦测方法及应用示例
12.4.1 半监督分类:自训练分类模型
12.4.2 自训练分类模型的R实现及应用示例
####### 1.R函数
####### 2.示例
思维导图
防止博客图床图片失效,防止图片源站外链:
http://www.processon.com/chart_image/5e5b46a5e4b069f82a1a6e9b.png)
思维导图在线编辑链接: