zoukankan      html  css  js  c++  java
  • 机器学习实战 Tricks

    • 样本集的简单封装

      D = (numpy.random.randn(N, d), numpy.random.randint(low=0, high=2, size=(N, )))
          # D[0] ⇒ X
          # D[1] ⇒ y

    1. One Hot Encoder 编码

    • One Hot Encoder 编码针对的是非数值型(numerical),而是类别型(categorical)特征;
    • One Hot Encoder 有时会带来维度的激增,而维度的激增会使得最终的识别结果存在过拟合的风险;
    • 一个现实的例子即是,比如对商店ID,这一属性,其取值有上千个,对其做One Hot Encoder,显然会带来维度的极大提升,一个解决方案即是:
      • 首先对这些商店进行聚类分析,将几千个商店ID,聚类为几十几百个商店种类;
      • 然后再进行 one hot encoder;

    2. 样本间的距离矩阵

    • 样本(XNd)之间的距离矩阵

      N, d = X.shape
      X_square = np.sum(X*X, axis=1).reshape(N, 1)
      dist_mat = 2*X_square - 2*X.dot(X.T)

    pj|i=exp(xixj2/2σi2)kiexp(xixk2/2σi2)

    def _joint_distribution_matrix(D, sigma):
        P = np.exp(-D*D/2/sigma**2)
        P /= np.sum(P, axis=1)
        return P
  • 相关阅读:
    LeetCode Lect7 堆及其应用
    Leetcode Lect7 哈希表
    5105 pa3 Distributed File System based on Quorum Protocol
    5105 pa2 Distributed Hash Table based on Chord
    5105 pa1 MapReduce
    分布式系统知识总结
    OS知识点总结
    c++知识点总结3
    c知识点总结2
    c++知识点总结
  • 原文地址:https://www.cnblogs.com/mtcnn/p/9422622.html
Copyright © 2011-2022 走看看