zoukankan html css js c++ java

python Kmeans算法

python的多元高斯生成起来好麻烦，所以只好用matlab先生成测试数据然后再进行测试了。cnblogs上面写公式好麻烦，所以就不多写了。上代码吧。

kmeans的基本思想就是通过迭代的方法，更新不同类别的的数据均值，从而达到聚类的目的，因为需要先固定一个均值μ_i^old，然后再通过梯度的方法更新μ值。这就天然的包含了EM的思想。

kmeans对起始的均值设定比较敏感，因此并不能保证最终能够收敛到一个好的结果。而且考虑到它需要计算每个点到中心点的距离，计算复杂度非常高，因此，当数据点非常多，而且聚类数目比较多的时候，就会造成速度非常慢的结果。

#!/usr/bin/env python

import numpy as np
import nose
import random
from matplotlib import pylab

def dist(x,y):
    return np.sqrt(np.sum((x-y)**2))
def distMat(X,Y):
    mat=[]
    for x in X:
        mat.append(map(lambda y:dist(x,y),Y))
    return np.mat(mat)
def sum_dist(data,label,center):
    s=0
    for i in range(data.shape[0]):
        s+=dist(data[i],center[label[i]])
    return s

def kmeans(data,cluster,threshold=1.0e-19,maxIter=100):
    m=len(data)
    labels=np.zeros(m)
    center=np.array(random.sample(data,cluster))
    s=sum_dist(data,labels,center)
    print s
    #iterator times
    n=0
    print center
    while 1:
        n=n+1
        tmp_mat=distMat(data,center)
        labels=tmp_mat.argmin(axis=1)
        color=['r*','w^','y+']
        pylab.hold(False)
        for i in range(cluster):
            idx=(labels==i).nonzero()
            #print "idx is",idx[0]
            #print data[idx[0]]
            center[i]=np.mean(data[idx[0]],axis=1)
            #center[i]=data[idx[0]].mean(axis=0)
            d_i=data[idx[0]]
            d_i=d_i[0] 
            #print 'd_i',d_i[0:-1,0]
            pylab.plot(d_i[0:-1,0],d_i[0:-1,1],color[i])
            pylab.hold(True)
            print 'center[i] ',center[i][0]
            pylab.scatter(center[i][0],center[i][1],s=1000,marker='.',c='r')
        pylab.show()
        s1=sum_dist(data,labels,center)
        print s1
        if s-s1<=threshold:
            break
        s=s1
        if n>maxIter:
            break
    print n
    return center
import scipy.io as si
if __name__=='__main__':
    data=si.loadmat('a.mat')
    data=data['a']
    center=kmeans(data,3)
    print center

查看全文

相关阅读:
验证车牌警车能源车
 两个二维数组组合并且日期相同的其他值相加
 运用phpExcel导出查询的数据
 JQ加减乘除运算
 获取url传递的参数、鼠标滚动加载事件
 SQL查询将数据按字段（2017-08-15 11:34:05）进行按月分组
 关于角色和权限控制数据表相关
 有关无限极分类并排序问题
 前端解决用户登录时，禁止chrome提示用户保存密码
 前端学习之iframe配合hash做菜单导航的问题：修改src跳转与contentWindow.location.replace('')的问题

原文地址：https://www.cnblogs.com/long0x0/p/2957190.html