zoukankan      html  css  js  c++  java
  • 机器学习实战 Tricks

    • 样本集的简单封装

      D = (numpy.random.randn(N, d), numpy.random.randint(low=0, high=2, size=(N, )))
          # D[0] ⇒ X
          # D[1] ⇒ y

    1. One Hot Encoder 编码

    • One Hot Encoder 编码针对的是非数值型(numerical),而是类别型(categorical)特征;
    • One Hot Encoder 有时会带来维度的激增,而维度的激增会使得最终的识别结果存在过拟合的风险;
    • 一个现实的例子即是,比如对商店ID,这一属性,其取值有上千个,对其做One Hot Encoder,显然会带来维度的极大提升,一个解决方案即是:
      • 首先对这些商店进行聚类分析,将几千个商店ID,聚类为几十几百个商店种类;
      • 然后再进行 one hot encoder;

    2. 样本间的距离矩阵

    • 样本(XNd)之间的距离矩阵

      N, d = X.shape
      X_square = np.sum(X*X, axis=1).reshape(N, 1)
      dist_mat = 2*X_square - 2*X.dot(X.T)

    pj|i=exp(xixj2/2σi2)kiexp(xixk2/2σi2)

    def _joint_distribution_matrix(D, sigma):
        P = np.exp(-D*D/2/sigma**2)
        P /= np.sum(P, axis=1)
        return P
  • 相关阅读:
    (x^n-1)在实数域上的标准分解
    子数列收敛定理(任何有界数列必有收敛子数列)
    Islamic empire
    Cauchy收敛准则
    Islamic
    用上下极限判定数列的算数平均值的极限
    妞妞打车之最多的硬币
    信仰1056
    棋盘游戏
    取石子的游戏
  • 原文地址:https://www.cnblogs.com/mtcnn/p/9422622.html
Copyright © 2011-2022 走看看