zoukankan      html  css  js  c++  java
  • final 3

    1. Bias-Variance Decomposition

    bias:模型真实值与预测值之间的差距(模型本身问题)

    variance:由于训练数据不同导致的误差

    2. stability

    variance小,bias大的模型

    同一个数据集产生两个set,同一个training algorithm对其训练;若两个结果很像,则为stable,否则为unstable

    stable:KNN,K越大越stable

    unstable:decision tree

    3. Ensemble methods:把几种方法组合起来

    simple ensemble:

    a) 少数服从多数

    b) a基础上添加weight

    mixture of experts:

    a) 不同维度用不同方法做

    b) 采取不同权重

    4. Bagging method

    针对unstable模型(low bias, high variance), 降低variance

    不训练所有数据,有放回的从全部数据里抽取与原数据相同数量的数据

    得到多个训练集,用其训练同一种算法,得到不同的模型,然后采取major vote

    即:同一个机器学习算法,仍产生差异化

    5. Random Forest

    随机性更强,不仅data set是随机的,每个set里选取哪些features也是随机的

    6. boosting

    针对weak learner(high bias,low variance)效果仅比随机预测好一点

    给每一个data增加了一个weight,先训练一个model,下一个model用来解决第一个model中没有解决的问题

    对做错的部分,增加weight;做错的地方,减小weight

    7. MLP

    8. 7中采用sigmoid function是因为求导很简单

    a(x) = 1 / (1 + e^-x)

    a(x)的导数是a(x)(1-a(x))

    td为真实值,od预测值,希望预测与真实差值的平方尽量小,利用这个不断更新w

    故而利用error对w求导

     9. MLP for classification(loss function)

     

    10. Deep learning---CNNs

    1) Conv Layer: window遍历,对应相乘相加,直至遍历结束

    但多数情况下不是只有一个channel

    原图像的每一层与filter的每一层逐层进行操作,然后每一层加起来只得到一个结果

    stride指步长,即filter移动时移动多少

    zero-padding:周围补零,使output与input的size相同

    output size:

    weights per neuron: bias+F*F*3(默认情况下为3)

    neurons:output size*output size

    connections:neurons*weights per neuron

    independent parameters:weights per neuron*number of filter

    2) Pooling layer

    downsampling,减小size

    mean pool/max pool

    no independent parameters does this add to the model!!!

    3) ReLU Layer(Rectified Linear Unit)

    f(x) = max(0, x)

    4) FC layer

    将卷积层输出拉成一维形式. 

     11. Dropout

    随机禁用一些节点,每一轮采用不同的禁用节点,避免overfitting

    12. Loss Function

     

    13. data augumentation

    对一个图像进行物理变化,使其可以在不同的情况下也能进行实别

    14. unsupervised learning

    数据没有label信息

    15. cluster analysis

    a) hierarchical methods

    a.1) K-means: 随机初始化k个中心点,将剩下的点都归到距离最近的中心点中

    选取每个cluster的mean值作为新的中心点,不断重复

    可以去除outliers,如那些距离中心点太远的

    a.2) expectation maximization(EM)

    有K个高斯分布,选取一个,产生一个数据点,,不断重复产生set。但是不知道产生数据的高斯分布的means都是什么以及哪个点是由哪个产生的

    如两百个学生的身高数据已知,但是不知道学生性别信息

    E step中,任选两个数字作为两个性别的mean值,根据mean判断每个数据由两个高斯分布产生的概率:p1/(p1+p2), p2/(p1+p2)

    M step中,将概率作为已知值,更新μ1,μ2(前者对男生身高的均值)

    对于200个数据,每个数据乘其是男生的概率,相加,再除以这些概率的和得到μ1;同时再乘是女生的概率,相加

    新的μ作为新的mean,不断重复

    每个数据都有一定概率属于两个cluster,不是一定属于某个cluster

    a.3) Hierarchical Clustering

    有bottom up以及top down两种形式

    bottom up常见有三种方法:Single linkage, complete linkage, average linkage

    single linkage即两个cluster之间的距离用两个cluster之间距离最近的两个点表示

    complete linkage即用距离最远的两个点表示

    average link: 平均值表示

    centroid distance:用两个cluster之间的中心点之间的距离表示

    对于single link来讲,先找最大的两个点合并,然后其对于本身的距离为1,别的点到其距离为别的店到原始两个点最近的,即更大的(数字代表相似度)

    group average:即根据原始的数据,如12与3的关系,则求1 2 3三者之间的数据均找到求均值

    想要几个cluster就在对应位置划开;几个cluster最好的确定方法有Elbow method

    Elbow method即计算所有点到其中心点的距离的平方求和,将其与number of cluster对应图片画出来,拐点即为所求

    或者采用silhouette plot,针对每一点计算a(i),即该点到同一cluster所有点距离的均值

    d(i, c)即计算这个点到其他cluster所有点距离的均值,b(i)是其中的最小值

    最好的情况是b(i)远大于a(i)

    b) partitioning methods

     16. PCA

    降维的

    17. autoencoders

    将input dataencoder成features。再decoder成原始data,计算其与真实值之间的loss function,降低loss function,做到信息压缩

  • 相关阅读:
    波段是金牢记六大诀窍
    zk kafka mariadb scala flink integration
    Oracle 体系结构详解
    图解 Database Buffer Cache 内部原理(二)
    SQL Server 字符集介绍及修改方法演示
    SQL Server 2012 备份与还原详解
    SQL Server 2012 查询数据库中所有表的名称和行数
    SQL Server 2012 查询数据库中表格主键信息
    SQL Server 2012 查询数据库中所有表的索引信息
    图解 Database Buffer Cache 内部原理(一)
  • 原文地址:https://www.cnblogs.com/eleni/p/12818018.html
Copyright © 2011-2022 走看看