zoukankan html css js c++ java

一、【python】机器学习基础

专有名词

机器学习 (machine learning)

预测分析 (predictive analytics)

统计学习 (statistical learning)

监督学习 (supervised learning)

无监督学习 (unsupervised learning)

样本 (sample)

特征 (feature)

特征提取 (feature extraction)

分类 (classification)

类别 (class)

标签 (label)

import numpy as np
import matplotlib as plt
import pandas as pd
import scipy as sp
import sklearn

# 以上为我们需要的类

1、鸢尾花分类

关键词

分类（classification)

散点图（Scatter Plot)

散点图矩阵（Pair Plot）

训练数据（training data）

训练集（training set）

留出集（hold-out set)

鸢尾花分类，是机器学习的一个入门和经典的知识点。我们往往可以通过这个小例子入手，来了解一下什么是机器学习。

python的scikit-learn模块已经将鸢尾花的数据进行内置，所以只需要调用函数进行读取和训练即可，无需准备数据。

# 输出iris——dataset中的键，了解一下存储了那些内容
from sklearn.datasets import load_iris

iris_dataset = load_iris()
print("keys of iris_dataset:{}
".format(iris_dataset.keys()))

keys of iris_dataset:dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])

load_iris返回的iris对象是一个Bunch对象，与字典很相似，里面包含了键和值

# 输出描述信息的部分内容
print(iris_dataset['DESCR'][:200]+'
')

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive

上面的DESCR键对应的值为数据集的简要说明。
target_name键对应的值是一个字符串数组，里面包含我们要预测的花的种类

print("Target_name:{}".format(iris_dataset['target_names']))

Target_name:['setosa' 'versicolor' 'virginica']

feature_names键对应的值是一个字符串列表，对每一个特征进行了说明

print("Feature name:{}".format(iris_dataset['feature_names']))

Feature name:['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

通常为了可以达到训练和测试的目的，将收集好的带标签数据分为两部分，一部分数据用于构建机器学习模型，叫做训练数据（training data）或训练集（training set）其余的数据用来评估模型的性能，叫做测试数据（test data）测试集（test set)或留出集（hold-out set)。

from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

iris_dataset = load_iris()
X_train,X_target,y_train,y_target = train_test_split(iris_dataset['data'],iris_dataset['target'],random_state=0)
print("X_train:{}
 X_tar:{}
 y_tar:{}
 y_tra:{}
".format(X_train,X_target,y_target,y_train))

为了实现训练和测试的目的，scikit-learn内置了train_test_split函数，帮助我们对训练、测试数据，和训练、测试的标签默认按3：1的比例进行拆分。从而返回数据给定的参数。也可以使用随机种子的形式进行随机按比例分布。

# 利用X_train中的数据创建DataFrame
# 利用iris_dataset.feature_names中的字符串对数据阵列进行标记
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
# 利用DataFrame创建散点图矩阵，按y_train着色
grr = pd.scatter_matrix(iris_dataframe, c=y_train, figsize=(15, 15), maker='0',hist_kwds={'bins':20}, s=60,alpha=.8)

scikit-learn中所有的机器学习模型都在各自的类中实现，这些类被称之为Estimator类。k近邻分类算法是在neighbor模块的KNeightborsClassifier类中实现。


from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train,y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',metric_params=None, n_jobs=None, n_neighbors=1, p=2,weights='uniform')

X_new = np.array([[5,2.9,1,0.2]])
prediction = knn.predict(X_new)
print("Result of Prediction:{}".format(prediction))
print("{}".format(iris_dataset['target_names'][prediction]))

Result of Prediction:[0]
['setosa']

流程总结：

准备数据

分为训练数据和测试数据

观察数据

构建模型

做出预测

评估精度

# 代码总结
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier

iris_dataset = load_iris()
X_train,X_target,y_train,y_target = train_test_split(iris_dataset['data'],iris_dataset['target'],random_state=0)
knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train,y_train)
print("Test set score:{:.2f}".format(knn.score(X_target,y_target)))

Test set score:0.97

谁不是孤身一人，翻山越岭

查看全文

相关阅读:
Python之路Day12--mysql介绍及操作
 Python之路第一课Day11--随堂笔记(异步IO数据库队列缓存之二)
Python之路第一课Day10--随堂笔记(异步IO数据库队列缓存)
Python之路第一课Day9--随堂笔记之二(进程、线程、协程篇)
Python之路第一课Day9--随堂笔记之一(堡垒机实例以及数据库操作)未完待续....
Python之路第一课Day8--随堂笔记(socket 承接上节---网络编程)
Python之路第一课Day7--随堂笔记(面向对象编程进阶...未完待续 )
Python之路第一课Day6--随堂笔记(面向对象 )
Python之路第一课Day5--随堂笔记（模块）
Python之路第一课Day4--随堂笔记（迭代生成装饰器）

原文地址：https://www.cnblogs.com/hasz/p/12994993.html