zoukankan html css js c++ java

机器学习基础之knn的简单例子

knn算法是人工智能的基本算法，类似于语言中的"hello world!",python中的机器学习核心模块：Scikit-Learn

Scikit-learn（sklearn）模块，为Python语言实现机器学习的核心模块，其包含了大量的算法模型函数API，

可以让我们很轻松地创建、训练、评估算法模型。同时该模块也是Python在人工智能（机器学习）领域的基础应用模块。

核心依赖模块：

NumPy：pip install –U numpy

Scipy：pip install –U scipy

Pandas：pip install –U pandas

Matplotlib：pip install –U matplotlib

Scikit-Learn模块：

Scikit-Learn：pip install –U scikit-learn

机器学习分为五个步骤：

1.算法选型看选择监督学习还是无监督学习

2.样本数据划分需要样本数据对模型进行训练

3.魔性训练使用fit()方法算法模型对象.fit( X_train_features, X_train_labels )

4.模型评估 metrics 使用sklearn中的 meterics 类可以实现对训练后的模型进行量化指标评估

5.模型预测 predict Predict实现了对测试数据验证以及用于对新数据的预测

KNN算法的简单应用，文档树：

其中numbers.csv数据如下：

number,classes
1,A
2,A
3,A
4,B
5,B
6,B
7,C
8,C
9,C

num_knn.py源码：

from sklearn.neighbors import KNeighborsClassifier
import numpy as np
import matplotlib.pyplot as plt
import os
import pandas as pd
import imp
from sklearn.model_selection import train_test_split

data=pd.read_csv(os.getcwd()+'data'+os.sep+'numbers.csv')
print('原始数据:
',data)

X_train,X_test,y_train,y_test=train_test_split(data['number'],data['classes'],test_size=0.25,random_state=40)
print('训练特征值:
',X_train.values)
print('训练标签值:
',y_train.values)
print('测试特征值:
',X_test.values)
print('测试标签值:
',y_test.values)
#print(y_train)
#print(y_test)

plt.scatter(y_train,X_train)

print('创建knn模型对象...')
knn=KNeighborsClassifier(n_neighbors=3)

print('开始训练knn模型...')
knn.fit(X_train.values.reshape(len(X_train),1),y_train)
#print(X_train.values)
#print(X_train.values.reshape(len(X_train),1)) #变成列向量

# 评估函数
# 算法对象.score(测试特征值数据, 测试标签值数据)
score=knn.score(X_test.values.reshape(len(X_test),1),y_test)
print('模型训练综合得分:',score)

# 步骤6：模型预测
# predict()函数实现
# predict(新数据（二维数组类型）): 分类结果
result = knn.predict([[12],[1.5]])
print('分类预测的结果为:{0},{1}'.format(result[0],result[1]))

# 绘制测试数据点
plt.scatter(result[0], 12, color='r')
plt.scatter(result[1], 1.5, color='g')
plt.grid(linestyle='--')
plt.show()

运行结果如下图：

KNN第二个例子：

movies.csv:

filename,war_count,love_count,movietype
movieA,3,104,爱情片
movieB,2,100,爱情片
movieC,1,81,爱情片
movieD,101,10,战争片
movieF,99,5,战争片
movieF,98,2,战争片

movie_knn.py:

import pandas as pd
import os
import imp
#导入分解词
from sklearn.model_selection import train_test_split
#导入knn算法模型
from sklearn.neighbors import KNeighborsClassifier
# 导入分类器性能监测报告模块
from sklearn.metrics import classification_report


def loaddata(filepath):  #加载数据
    data=pd.read_csv(filepath)
    print('样本数据集:
',data)
    #print('样本数据集:
{0}'.format(data))

    # 步骤2：数据抽取
    # 获取war_count、love_count、movietype列数据
    data = data[['war_count', 'love_count', 'movietype']]
    print('原始样本数据集(数据抽取)：
{0}'.format(data))

    # 返回数据
    return data


def splitdata(data):
    print('--数据划分--')
    X_train,X_test,y_train,y_test=train_test_split(data[['war_count','love_count']],data['movietype'],
                                                   test_size=0.25,random_state=30)
    print('训练样本特征集:
', X_train.values)
    print('训练样本标签集:
', X_test.values)
    print('测试样本特征集:
', y_train.values)
    print('测试样本标签集:
', y_test.values)

    # 返回数据
    return X_train, X_test, y_train, y_test


def ModelTraing(X_train,X_test,y_train,y_yest):
    #先创建knn算法模型
    print('knn算法模型...')
    knn=KNeighborsClassifier(n_neighbors=3)

    #训练算法模型
    print('算法模型训练...')
    knn.fit(X_train,y_train)

    #训练模型评估
    result=knn.predict(X_test)
    print('knn训练模型测试报告:
')
    print(classification_report(y_test,result,target_names=data['movietype'].unique()))

    return knn


if __name__=='__main__':
    # 设置数据文件的地址
    filePath = os.getcwd() + 'data' + os.sep + 'movies.csv'
    print(filePath)
    # 加载数据文件
    data = loaddata(filePath)
    # 数据划分
    X_train, X_test, y_train, y_test = splitdata(data)
    # 模型训练
    knn = ModelTraing(X_train, X_test, y_train, y_test)
    # 模型应用
    movietype = knn.predict([[20, 94]])
    print('电影分类预测结果为：{0}'.format(movietype[0]))

代码运行结果：

附上GitHub地址 tyutltf/knn_basic: knn的简单例子 https://github.com/tyutltf/knn_basic

查看全文

相关阅读:
LNMP搭建随笔
 MySQL中concat函数（连接字符串）
解决bash: mysql: command not found 的方法
 linux下导入、导出mysql数据库命令
 MysqL的root用户不允许远程连接，只能通过PHPMYADMIN
CentOS7安装iptables防火墙
 为Linux服务器设置静态IP的方法
 linux下mysql的root密码忘记解决方法
 tcp的三次握手和四次挥手转自https://www.jianshu.com/p/d3725391af59
go if for while 的使用

原文地址：https://www.cnblogs.com/yuxuanlian/p/9910091.html