zoukankan html css js c++ java

K-means实现二分类问题

最近做一个有关二分类问题，我打算使用K-means算法实现baseline。

首先，我的数据文件形式是“.arff”格式的，在处理这种数据格式的时候，我是花了一些精力的，话不多说，代码如下：

import numpy as np

def readarff(filename):
    #dataMat=np.zeros(shape=(1000,4096))
    dataMat=[[0 for i in range(4096)] for j in range(591)]
    arff_file=open(filename)
    lines=arff_file.readlines()
    count=0
    for l in lines:
        content=[]
        if not (l.startswith("@")):
            content.append(l)
            for c in content:
                cs=c.split(',')
                cs.pop(0)
                cs.pop(0)
                cs.pop(0)
                flag=True
                while flag:
                    temp=cs[0].split(' ')
                    index=int(temp[1])
                    if not(index==4099):
                        dataMat[count][index-3]=(float)(temp[2])
                        #print count
                        #print index-4
                        cs.pop(0)
                    else:
                        flag=False
        count=count+1
    dataMat=np.matrix(dataMat)
    return dataMat


dataMat=readarff('data/temp1.arff')

我的数据文件中，前三个属性是不应该作为特征属性的，这就是出现了三个pop（）的原因。

dataMat是一个数据矩阵，这个矩阵也是最后需要的一个返回值。关于这个矩阵，在初始化时，一定要使用：

dataMat=[[0 for i in range(4096)] for j in range(591)]

这种形式，而不要使用：

dataMat=[[0]*4096]*591

因为，如果使用下面这种形式的话，在给矩阵赋值的时候，例如：

dataMat[0][0]=0.123456

这样改变的不只是（0,0）这一个位置的值，而是会改变所有行的第0列的值。（具体知识点涉及到了list的浅拷贝问题，可以参照：https://www.cnblogs.com/btchenguang/archive/2012/01/30/2332479.html）

另外，由于我的数据格式是“ 1 0.123456789”，第二个数字才是我需要的，这也就是我为什么使用split对空格进行分割的原因了。

还有一个注意点：

就是我的强制类型转换那一步：

dataMat[count][index-3]=(float)(temp[2])

这里如果不进行强制类型转化，会发现在后面进行K-means算法时，数据之间的运算会出问题，这是因为，这个矩阵中数据类型是unicode型的。

下面就是K-means算法了：

#计算欧几里得距离
def distEclud(vecA,vecB):
    return sqrt(sum(power(vecA-vecB,2))) # 计算两个向量之间的距离

#随机生成k个质心
def randCent(dataSet,k):
    #n=shape(dataSet)[1]
    n=dataSet.shape[1]
    centroids=mat(zeros((k,n)))
    for j in range(n):
        minJ=min(dataSet[:,j])
        maxJ=max(dataSet[:,j])
        rangeJ=float(maxJ-minJ)  #这一步就是上面说的如果不进行强制类型转换会出现问题的位置
        centroids[:,j]=minJ+rangeJ*random.rand(k,1)
    return centroids

#k-means算法：
def kMeans(dataSet,k,distMeans=distEclud,createCent=randCent):
    m=dataSet.shape[0]
    clusterAssment=mat(zeros((m,2))) #存放该样本属于哪类，以及距质心的距离
    centroids=createCent(dataSet,k)
    clusterChanged=True
    while clusterChanged:
        clusterChanged=False;
        for i in range(m):
            minDist=inf;minIndex=-1;
            for j in range(k):
                distJI=distMeans(centroids[j,:],dataSet[i,:])
                if distJI<minDist:
                    minDist=distJI;minIndex=j

            if clusterAssment[i,0]!=minIndex:clusterChanged=True;
            clusterAssment[i,:]=minIndex,minDist**2

        print(centroids)  #在每一轮迭代后都输出一次质心的坐标
　　　　　　#更新质心点的坐标
        for cent in range(k):
            ptsInClust=dataSet[nonzero(clusterAssment[:,0].A==cent)[0]]
            centroids[cent,:]=mean(ptsInClust,axis=0)

    return centroids,clusterAssment

datMat=mat(readarff('data/temp1.arff'))
myCentroids,clustAssing=kMeans(datMat,2)
print(myCentroids)
print(clustAssing)

K是类别的个数，这里我定为了2,；具体情况可以自己改变。

查看全文

相关阅读:
课程作业06-汇总整理
 课程作业04-汇总整理
 课程作业04-字串加密解密
 课程作业03-你已经创建了多少个对象？
课程作业03-汇总整理
 课程作业02-汇总整理
 02-实验性问题总结归纳
 猜数字游戏
 RandomStr实验报告（验证码实验）
个人总结

原文地址：https://www.cnblogs.com/kennqiang/p/10027368.html