分类算法是解决分类问题的方法,是数据挖掘、机器学习和模式识别中一个重要的研究领域。分类算法通过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别。分类算法的应用非常广泛,银行中风险评估、客户类别分类、文本检索和搜索引擎分类、安全领域中的入侵检测以及软件项目中的应用等等。
数据是通过本地读取csv文件
其中前50行为Iris-setosa,中间50行为Iris-versicolor,最后50行为Iris-virginica,共150行数据
#-*- coding: UTF-8 -*-
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 四个特征分别为花萼长度sepal length,花萼宽度sepal width,花瓣长度petal length,花瓣宽度petal width。
# 鸢尾花的种类,共有3种,分别为山鸢尾Iris Setosa、杂色鸢尾Iris Versicolour、维吉尼亚鸢尾Iris Virginica
class knnTest:
k=0;
train_x=np.array([])
train_y=np.array([])
#初始化
def __init__(self,k):
self.k=k
return None
#装载
def fit(self,train_x,train_y):
self.train_x=np.array(train_x)
self.train_y=np.array(train_y)
return None
#预测
def knn(self,test_x,test_y,train_x,train_y):
self.fit(train_x,train_y)
result = []
test_x=np.asarray(test_x)
for i in test_x:
# 对于测试集中的每一个样本,依次与训练集中的所有样本求距离。
dis = np.sqrt(np.sum((i - self.train_x) ** 2, axis=1))
# 返回数组排序后,每个元素在原数组中的索引
index = dis.argsort()
# 取距离最近的k个元素的索引
index = index[:self.k]
# 返回数组中每个元素出现的次数
count = np.bincount(self.train_y[index])
# 最大元素索引,即出现次数最多的元素
result.append(count.argmax())
return result
#
def main():
Knn=knnTest(k=5)
# 四个特征分别为花萼长度sepal-length,花萼宽度sepal-width,花瓣长度petal-length,花瓣宽度petal-width。
# 鸢尾花的种类,共有3种,分别为山鸢尾Iris-Setosa、杂色鸢尾Iris-Versicolour、维吉尼亚鸢尾Iris-Virginica
data = pd.read_csv('iris.data.csv',names=["sepal-length","sepal-width","petal-length","petal-width","Species"])
# 将类别文本映射为数值类型
data['Species'] = data['Species'].map({'Iris-setosa':0,'Iris-versicolor':1,'Iris-virginica':2})
# 提取出每个类别的鸢尾花数据
t0 = data[data['Species'] == 0]
t1 = data[data['Species'] == 1]
t2 = data[data['Species'] == 2]
# print(data)
# 对每个类别数据进行打乱洗牌
t0 = t0.sample(len(t0), random_state=0) #50行
t1 = t1.sample(len(t1), random_state=0) #50行
t2 = t2.sample(len(t2), random_state=0) #50行
# 构建训练集和测试集
train_x = pd.concat([t0.iloc[:40, :-1], t1.iloc[:40, :-1], t2.iloc[:40, :-1]], axis=0) #120行
# print("train_x")
# print(train_x)
train_y = pd.concat([t0.iloc[:40, -1], t1.iloc[:40, -1], t2.iloc[:40, -1]], axis=0) #120行
# print("train_y")
# print(train_y)
test_x = pd.concat([t0.iloc[40:, :-1], t1.iloc[40:, :-1], t2.iloc[40:, :-1]], axis=0) #30行
# print("test_x")
# print(test_x)
test_y = pd.concat([t0.iloc[40:, -1], t1.iloc[40:, -1], t2.iloc[40:, -1]], axis=0) #30行
# print("test_y")
# print(test_y)
result = Knn.knn(test_x,test_y,train_x,train_y)
print("鸢尾花品种映射关系:'Iris-setosa':0,'Iris-versicolor':1,'Iris-virginica':2")
print("鸢尾花预测命中率result_rate:",np.sum(result == test_y)/len(result))
# for i in range(len(result)):
# if result[i]==0:
# result[i]="Iris-setosa"
# elif result[i] == 1:
# result[i]="Iris-versicolor"
# else :
# result[i]="Iris-virginica"
print("鸢尾花预测品种result_name:",result)
return None
if __name__ == '__main__':
main()
运行结果