zoukankan      html  css  js  c++  java
  • K-Means算法Demo

    简介:本Demo是参照这个网站上的Demo自己用Java实现的。将Java打包为Jar,再将Jar转为exe,源代码及程序Demo下载请点我

    K-Means算法简介

      我尽量用通俗易懂但不规范的语言来描述K-Means算法。

      K-Means算法是数据挖掘十大算法之一,是一种聚类算法,也是最简单的无监督学习(unsupervised learning算法之一。

      假设有一个元素集合,我们的目标是将该集合中的元素划分成K个簇(就是K个部分),每个簇内的元素相似度较高,不同簇的元素相似度较低(正所谓物以类聚,人以群分)。

      K-Means算法就是实现这样一个目标的算法。

      先看Demo,会有直观的了解。

    K-Means算法步骤

      因为要做可视化界面,所以我们现在只讨论二维的情况,即每个元素用2个数表示。

      假如我们的元素集合是平面上的N个点,计算相似度用的是两点之间的欧氏距离(当然也可以使用其他距离公式,相关距离公式见下部分),两点距离越短则表示相似度越高。那么算法步骤大概是这个样子:

      Step 1. 随机产生K个点,作为K个簇的中心(注意K<=N

      Step 2. N个点中的每一个点,计算该点离哪个中心最近,离哪个中心最近就属于哪个簇。  

      Step 3. 更新每个簇的中心(取簇中的元素的坐标的均值)

      Step 4. 重复Step2Step3直到所有簇的中心不再改变。

    Java实现代码(带图形界面)

    import java.awt.*;
    import java.awt.event.*;
    import javax.swing.*;
    import javax.swing.JFrame;
    import javax.swing.JPanel;
    import java.util.Random;
    import java.applet.*;
    
    class PaintovalPane extends JPanel
    {
        /*K-Means*/
        int K = 5;        //K个中心
        int N = 50;        //N个点
        int D = 2;        //二维元素
    
        Random rand = new Random();
    
        class Point
        {            
            Point()
            {
                initial();
            }
            
            void initial()
            {
                /*初始化为[0,600)的随机点,簇编号为-1,无意义*/
                for (int i = 0; i < D; ++i)
                    x[i] = rand.nextDouble()*600;
                clusterNum = -1;
            }
            double x[] = new double[D];    //坐标
            int clusterNum;                //簇编号
        };
    
        Point p[];                //数据点
        Point centroid[];        //中心点
        Point oldCentroid[];    //上一次的中心点,用于确定中心点是否不再改变
        Color colors[];            //表示不同簇的颜色值
        /*欧式距离*/
        double Euclidean(Point p1, Point p2)
        {
            double dis = 0;
            
            for (int i = 0; i < D; ++i)
                dis += (p1.x[i]-p2.x[i])*(p1.x[i]-p2.x[i]);
            return Math.sqrt(dis);
        }
        /*更新中心点*/
        void updateCentroid(int clusterNum)
        {    
            for (int i = 0; i < D; ++i)
                centroid[clusterNum].x[i] = 0;
                
            int clusterSize = 0;
            
            for (int i = 0; i < N; ++i)
                if (p[i].clusterNum == clusterNum)
                {
                    clusterSize++;
                    
                    for (int j = 0; j < D; ++j)
                        centroid[clusterNum].x[j] += p[i].x[j];
                }
    
            if (clusterSize == 0)
                return;
                
            for (int i = 0; i < D; ++i)
                centroid[clusterNum].x[i] /= (double)clusterSize;
        }
    
        /*更新中心点的接口函数*/
        void updateCentroids()
        {
            for (int i = 0; i < K; ++i)
                updateCentroid(i);
        }
        
        /*分配数据点到哪个簇*/
        void assignPoint(int x)
        {
            double minDis = 99999999;
            int minIndex = 1;
            for (int i = 0; i < K; ++i)
            {
                double curDis = Euclidean(p[x], centroid[i]);
                if (curDis < minDis)
                {
                    minDis = curDis;
                    minIndex = i;
                }
            }
            p[x].clusterNum = minIndex;
        }
    
        /*分配数据点到哪个簇的接口函数*/
        void assign()
        {
            for (int i = 0; i < N; ++i)
                assignPoint(i);
        }
        
        /*判断2点是否同一个点*/
        Boolean samePoint(Point p1, Point p2)
        {
            if (p1.clusterNum != p2.clusterNum)
                return false;
            for (int i = 0; i < D; ++i)
                if (p1.x[i] != p2.x[i])
                    return false;
            return true;
        }
    
        /*判断算法是否终止*/
        Boolean stop()
        {
            /*如果每一个中心点都与上一次的中心点相同,则算法终止,否则更新oldCentroid*/
            for (int i = 0; i < K; ++i)
                if (!samePoint(oldCentroid[i], centroid[i]))    
                {
                    for (int j = 0; j < K; ++j)
                        copy(oldCentroid[j],centroid[j]);
                    return false;
                }
            return true;
        }
    
        /*令p1 = p2*/
        void copy(Point p1, Point p2)
        {
            p1.clusterNum = p2.clusterNum;
            for (int i = 0; i < D; ++i)
                p1.x[i] = p2.x[i];
        }
        /*初始化*/
        void init()
        {
            /*分配内存*/
            p = new Point[N];    
            centroid = new Point[K];
            oldCentroid = new Point[K];
            colors = new Color[K];
    
            for (int i = 0; i < N; ++i)
            {
                p[i] = new Point();
                p[i].initial();
            }
    
            for (int i = 0; i < K; ++i)
            {
                centroid[i] = new Point();
                oldCentroid[i] = new Point();
                centroid[i].initial();
                oldCentroid[i].initial();
                copy(oldCentroid[i],centroid[i]);
                colors[i] = new Color(rand.nextInt(255), rand.nextInt(255), rand.nextInt(255));
            }
        }
    
        /*默认构造函数,调用初始化函数*/
        PaintovalPane()
        {
            init();
        }
    
        /*重载绘图函数*/
        public void paintComponent(Graphics g)
        {
            super.paintComponent(g);
            setBackground(Color.white);
            /*画数据点(圆形),根据簇编号来确定颜色*/
            for (int i = 0; i < N; ++i)
            {
                int x = (int)p[i].x[0], y = (int)p[i].x[1];
    
                if (p[i].clusterNum == -1)
                    g.setColor(Color.black);
                else
                    g.setColor(colors[p[i].clusterNum]);
    
                g.fillOval(x, y, 15, 15);
            }
            /*画中心点(矩形),根据簇编号来确定颜色*/
            for (int i = 0; i < K; ++i) 
            {
                int x = (int)centroid[i].x[0], y = (int)centroid[i].x[1];
    
                g.setColor(colors[i]);
    
                g.fillRect(x, y, 15, 15);
            }
        }
    }
    
    class Drawing extends JFrame
    {
        /*声明一系列组件*/
        JButton jButton1 = new JButton("Start");
        JButton jButton2 = new JButton("Step");
        JButton jButton3 = new JButton("Run");
        JLabel label1 = new JLabel("Points");
        JLabel label2 = new JLabel("Clusters");
        JTextField textField1 = new JTextField("This is buffer for text", 15);
        JTextField textField2 = new JTextField("This is buffer for text", 15);
        JPanel jPanel = new JPanel();
        PaintovalPane paint = new PaintovalPane();
        Drawing()
        {
            setTitle("K-Means");
            setVisible(true);
            setDefaultCloseOperation(EXIT_ON_CLOSE);
            setSize (660,710);
            textField1.setText(String.valueOf(paint.N));
            textField2.setText(String.valueOf(paint.K));
            /*Start按钮的监听器*/
            jButton1.addActionListener(new ActionListener(){
                public void actionPerformed(ActionEvent ae) 
                {
                    int input1 = Integer.parseInt(textField1.getText());
                    int input2 = Integer.parseInt(textField2.getText());
    
                    /*判断输入是否合法*/
                    if (input1 > 500 || input1 <= 0)
                    {
                        JOptionPane.showMessageDialog(null, "Please input the number between 1-500");
                    }
                    else if (input2 > input1 || input2 <= 0)
                    {
                        JOptionPane.showMessageDialog(null, "Please input the number between 1-Points");
                    }
                    else
                    {
                        paint.N = input1;
                        paint.K = input2;
                        paint.init();
                        paint.repaint();
                        jButton2.setText("Step");
                        jButton2.setEnabled(true);
                        jButton3.setText("Run");
                        jButton3.setEnabled(true);
                    }
                }
            });
            /*Step按钮的监听器*/
            jButton2.addActionListener(new ActionListener(){
                public void actionPerformed(ActionEvent ae) 
                {
    
                    paint.assign();
            
                    paint.updateCentroids();
    
                    /*算法终止的话让按钮变灰并提示算法结束*/
                    if (paint.stop())
                    {
                        jButton2.setText("End");
                        jButton2.setEnabled(false);
                        jButton3.setText("End");
                        jButton3.setEnabled(false);
                    }
    
                    paint.repaint();
                }
            });
            /*Run按钮的监听器*/
            jButton3.addActionListener(new ActionListener(){
                public void actionPerformed(ActionEvent ae) 
                {
                    do
                    {
                        paint.assign();
            
                        paint.updateCentroids();
    
                        paint.repaint();
                    }
                    while(!paint.stop());
    
                    /*算法终止的话让按钮变灰并提示算法结束*/
                    jButton2.setText("End");
                    jButton2.setEnabled(false);
                    jButton3.setText("End");
                    jButton3.setEnabled(false);
                }
            });
            jPanel.add(label1);
            jPanel.add(textField1);
            jPanel.add(label2);
            jPanel.add(textField2);
            jPanel.add(jButton1);
            jPanel.add(jButton2);
            jPanel.add(jButton3);
            jPanel.setBackground(new Color(1,255,1));
            add(BorderLayout.NORTH,jPanel);
            add(BorderLayout.CENTER, paint);
        }
    }
    
    public class Hello extends Applet
    {
        public static void main(String args[])
        {
            Drawing d = new Drawing();
        }
    }
    View Code

    C++实现代码

    #include <iostream>
    #include <cmath>
    #include <ctime>
    #include <cstdlib>
    using namespace std;
    
    #define K 10    //簇数 
    #define N 200    //点数
    #define D 2        //维数
    
    /*产生0-100的随机数*/
    double random()
    {    
        return 100*(double)rand()/(double)RAND_MAX;
    } 
    
    class Point
    {
        public:
            
        Point()
        {
            for (int i = 0; i < D; ++i)
                x[i] = random();
            clusterNum = -1;
        }
        
        double x[D];    //坐标
        int clusterNum;    //所属簇的编号 
    };
    
    Point p[N];
    Point centroid[K];
    Point oldCentroid[K];
    
    /*欧式距离*/
    double Euclidean(Point p1, Point p2)
    {
        double dis = 0;
        
        for (int i = 0; i < D; ++i)
            dis += (p1.x[i]-p2.x[i])*(p1.x[i]-p2.x[i]);
        return sqrt(dis);
    }
    
    /*重新计算编号为clusterNum的簇的重心*/
    void updateCentroid(int clusterNum)
    {    
        for (int i = 0; i < D; ++i)
            centroid[clusterNum].x[i] = 0;
            
        int clusterSize = 0;
        
        for (int i = 0; i < N; ++i)
            if (p[i].clusterNum == clusterNum)
            {
                clusterSize++;
                
                for (int j = 0; j < D; ++j)
                    centroid[clusterNum].x[j] += p[i].x[j];
            }
    
        if (clusterSize == 0)
            return;
            
        for (int i = 0; i < D; ++i)
            centroid[clusterNum].x[i] /= (double)clusterSize;
    }
    
    void updateCentroids()
    {
        for (int i = 0; i < K; ++i)
            updateCentroid(i);
    }
    /*计算某点属于哪一簇*/
    void assignPoint(Point &point)
    {
        double minDis = INT_MAX;
        int minIndex = 1;
        for (int i = 0; i < K; ++i)
        {
            double curDis = Euclidean(point, centroid[i]);
            if (curDis < minDis)
                minDis = curDis, minIndex = i;
        }
        point.clusterNum = minIndex;
    }
    
    void assign()
    {
        for (int i = 0; i < N; ++i)
            assignPoint(p[i]);
    }
    /*比较是否相同的两个点,注意double的比较有时候可能出现问题*/
    bool samePoint(Point p1, Point p2)
    {
        if (p1.clusterNum != p2.clusterNum)
            return false;
        for (int i = 0; i < D; ++i)
            if (p1.x[i] != p2.x[i])
                return false;
        return true;
    }
    
    /*判断重心是否不变,若重心不再变化,算法终止*/ 
    bool stop()
    {
        for (int i = 0; i < K; ++i)
            if (!samePoint(oldCentroid[i], centroid[i]))    //若算法未停止,则更新oldCentroid 
            {
                for (int j = 0; j < K; ++j)
                    oldCentroid[j] = centroid[j];
                return false;
            }
        return true;
    }
    
    void init()
    {
        srand(time(0));
        
        /*如果类内成员是基本类型,则默认的operator=可以完成简单的赋值功能*/
        for (int i = 0; i < K; ++i)
            oldCentroid[i] = centroid[i];
    }
    
    int main()
    {
        init();
        do
        {
            assign();
            
            updateCentroids();
        }
        while(!stop());    
    }
    View Code

    ps.一点收获,C++中,自定义类提供的默认operator=是可以完成基本数据类型的赋值的,但是Java的operator=并不是简单赋值,而是=左边的类变成=右边的类引用。

    程序效果

      按下Start

      按下Step

      按下Run

    Java程序转为exe

      为了能够让Java程序到处跑(不是每个电脑都装有Java虚拟机的),决定将Java程序转为exe

      步骤如下:

      1、将.java编译为.class

    进入cmd,cd切换到.java文件目录下,执行javac Hello.java,产生Hello.class

      2、将相关的.class打包为一个.jar文件

      继续在当前目录下,执行jar cvf Hello.jar *.class,产生Hello.jar

      注意,此时Hello.jar是不能直接执行的,因为缺少入口函数。我们用360压缩打开Hello.jar,可以看到有一个META-INF文件夹,里面有一个MANIFEST.MF文件,用笔记本打开,在最后面添加Main-Class: Hello。(注意1,Hello是我自己的入口函数所在的类;注意2,Main-Class:后面有空格)。这个时候.jar文件应该可以用java虚拟机执行了。

      3、利用软件j2ewiz.exe or click me .jar文件转为.exe

    距离公式

      1Minkowski Distance(闵可夫斯基距离)——λ可取任意值,可以是负数,也可以是正数,或是无穷大。

      2Euclidean Distance(欧氏距离)——也就是第一个公式λ=2的情况,高中学过的最基本的平面上两点的距离公式。

     

      3CityBlock Distance(曼哈顿距离)——也就是第一个公式λ=1的情况。

     

      如下图,绿色代表欧氏距离,也就是直线距离;而红色、蓝色和黄色代表等价的曼哈顿距离

    参考资料

    算法杂货铺——k均值聚类(K-means)

    K-Means算法Demo

    曼哈顿距离

    斯坦福公开课

    java如何打JAR包

  • 相关阅读:
    MySQL--单表查询
    python库--pandas--Series.str--字符串处理
    如何 grep tab & 如何grep 减号(dash)
    png压缩
    如何无密码登陆远程机器?
    ssh中运行awk
    PHP 时区
    sublime使用
    nginx 50x故障分析
    nginx反向代理异常
  • 原文地址:https://www.cnblogs.com/chenyg32/p/3793207.html
Copyright © 2011-2022 走看看