总结2

zoukankan html css js c++ java

总结2
没有offer的一天

机器学习相关

概念

欠拟合拟合过拟合

训练集和测试集：模型在训练集和测试集都表现不好,...

bias+variance

bias: 模型刻画的分布(所有可能的训练数据集训出的所有模型的输出平均值(模型的期望))与真实分布的差距
variance: 不同训练集训练下模型输出值之间的差异

“偏差-方差分解”说明，泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。给定学习任务，为了取得好的泛化性能，则需使偏差较小，即能够充分拟合数据，并且使方差较小，即使得数据扰动产生的影响小。

欠拟合: bias high

过拟合: variance high

过拟合: 拟合了噪声和outlier

bagging and boosting

bagging: 多个分类器共同决定(完整的决策树), random forest(随机); low variance
boosting:low bias, adaboost(调整样本权重,e=错误率, (alpha_t = frac{1}{2}ln(frac{1-e}{e})),权重变化 (exp(-alpha_th_t(x)y)), (sgn(sum alpha_t h_t(x))));
GBDT: 拟合残差，将残差作为下一个学习器的样本的label,继续学习，有shriange收缩的思想; 往往是深度较小的树;不容易并行

k折交叉验证:
k较大，训练集的数据量较小，bias小，variance大
k较小是， variance 比较小, bias比较大

避免欠拟合:
1. 更好的特征--与数据的分布相关的具有代表性的特征
2. 更多的特征--增大输入向量的维度，增加模型的复杂度
避免过拟合(降低 variance)
1. 增大数据集
2. 减少数据特征(降维，PCA)
3. 正则化 L1,L2
4. dropout(以一定的概率丢掉某些神经元)
L1 和 L2 正则
1. 增加约束
L1 正则容易是参数为0，即特征稀疏化；L2正则会是参数变小；都能降低variance
1. 先验
  L1先验是laplace分布，0附近更为集中
  L2 则是0周围比较集中, gauss分布
logistic regression

分类算法，线性分类平面
sigmoid (h_{ heta} = frac{1}{1+e^{ heta^Tx+b}})(是正例的概率)
假设是伯努利分布，采用最大似然的方法，连乘
(L_ heta(x) = prod h_ heta(x)^{y_i}(1-h_ heta(x))^{1-y_i})

去(ln)后，就变成加的形式

所以我们需要最大化最大似然函数

郁之相关的是多分类问题的(softmax)函数,(frac{e^x}{e^x+e^y+e^z}); 从(softmax)的角度来看，(w)可以看作(w_1-w_0)
查看全文

相关阅读:
【Android Developers Training】 105. 显示一个位置地址
 【Android Developers Training】 104. 接受地点更新
 【Android Developers Training】 103. 查询当前地点
 【Android Developers Training】 102. 序言：让你的应用获知地点
 【Android Developers Training】 101. 显示快速联系人挂件（Quick Contact Badge）
Agent admitted failure to sign using the key
谷歌大牛Jeff Dean是如何成为互联网战神的
 mount挂载错误
 linux mount (挂载命令)详解
 出现Fatal IO error 11 (资源暂时不可用) on X server :0.0.的可能原因及解决方案

原文地址：https://www.cnblogs.com/fridayfang/p/14670735.html

机器学习相关

概念

bagging and boosting

L1 和 L2 正则

logistic regression