zoukankan      html  css  js  c++  java
  • sklearn KMeans在训练集上训练,在预测集上预测

    一般在有监督训练中,我们很自然地会用如下模式去预测测试集的分类:(以svm为例)

    svm.fit(x_train, y_train)
    y_pred=svm.predict(x_test)

    那么无监督训练中是否也可以在一个数据集上训练,然后用训练好的模型直接调用predict()函数在另一个数据集上进行预测呢?答案是:可以的!下面我们以KMeans为例说明。

    import numpy as np
    from sklearn.cluster import KMeans
    from sklearn.datasets.samples_generator import make_blobs
    
    # Generate some data
    X_train, y_train = make_blobs(n_samples=400, centers=4, cluster_std=0.60, random_state=0)
    X_test, y_test = make_blobs(n_samples=100, centers=4, cluster_std=0.80, random_state=0)
    
    kmeans = KMeans(4, random_state=0)
    kmeans.fit(X_train)
    
    # 方法一:手动计算测试集的分类
    centroids = kmeans.cluster_centers_
    labels_list = []
    for i in range(X_test.shape[0]):
        distance = np.square(centroids - X_test[i])
        distance = np.sum(distance, axis=1)
        label = np.argmin(distance)
        labels_list.append(label)
    
    # 方法二:调用predict()
    labels_test = kmeans.predict(X_test)
    
    # 判断两个方法的预测结果是否一样
    print(labels_list == list(labels_test))   # 输出结果:True

    kmeans的predict()结果和我们手动计算的结果完全相同,说明无监督训练中也可以在一个数据集上训练,然后用训练好的模型直接调用predict()函数在另一个数据集上进行预测。

  • 相关阅读:
    680. Valid Palindrome II【easy】
    125. Valid Palindrome【easy】
    459. Repeated Substring Pattern【easy】
    2. Trailing Zeros【easy】
    142. O(1) Check Power of 2【easy】
    181. Flip Bits【easy】
    183.Wood Cut【hard】
    61. Search for a Range【medium】
    关闭微软对win10的推送
    让未激活的win8.1不再跳出提示激活的窗口
  • 原文地址:https://www.cnblogs.com/picassooo/p/13626089.html
Copyright © 2011-2022 走看看