Udacity_机器学习 - 走看看

zoukankan html css js c++ java

Udacity_机器学习
有多条线可以降低绝对误差，但只有一条线可以降低平方误差和

Sum of Squared Errors (SSE)

监督学习

决策树（ID3算法、信息熵[父节点的信息熵=1]、信息增益）

计算信息熵

分类和回归

准确率的缺陷：

对于偏斜类（有很多样本点，但属于该类别的数目特别少）

绝不错杀一个

宁可天下人负我（试图找出所有相关人员）

模型可能出现的误差来自两个主要来源：

因模型无法表示基本数据的复杂度而造成的偏差

因模型对训练它所用的有限数据过度敏感而造成的方差

数据预处理五步走：
1. 数据摘要通过变量的特征快速了解数据结构如变量的类型，非空值数量简单统计量（均值、方差...）等
2. 清洗变量目的（保留尽量多的有效信息）类别变量-->数值变量，删掉冗余信息，填充NA等
3. 拆分训练集合验证集目的（为训练模型和交叉验证做准备）
4. 训练模型
5. 预测结果
交叉验证主要是想通过模型的差异来抵消一部分模型本身的系统性误差，减小过拟合，增加总体稳健性
查看全文

相关阅读:
rabbitmq在centos7下安装
 跨域问题
 11生成器相关及推导式(附内置函数分析图url)
10函数名的应用，闭包，和迭代器
 09函数的动态传参及global和nonlocal关键字
 08函数简介
 07基本的文件操作
 06set集合和深浅拷贝(包括前面的一些知识点补充)
05判断和编码/解码
 04基本数据类型(字典)

原文地址：https://www.cnblogs.com/sxbjdl/p/5655978.html

Copyright © 2011-2022 走看看