zoukankan      html  css  js  c++  java
  • Python3玩转儿 机器学习(1)

    机器学习的基础概念

    数据

    • 著名的鸢尾花数据 https://en.wikipedia.org/wiki/lris_flower_data_set

     lris setossa      lris versicolor     lris verginica

              lris setossa                                    lris versicolor                                         lris verginica

    下面是鸢尾花的数据:

     

    • 数据整体叫数据集(data set)
    • 每一行数据称为一个样本(sample)
    • 除最后一列,每一列表达样本的一个特征(feature)
    • 最后一列,称为标记(label)

    第i个样本行写作 ,也叫特征向量。第i个样本第j个特征值 第i个样本的标记写作

    为了可视化特征方便,我们只抽取出特征中的前两个特征,其中萼片的长度作为横轴,萼片的宽度作为纵轴。

    绘制下图:

    对于每一个样本来说都会在坐标系中表示一个点,假设我们有三个特征,就可以在三维空间中表示它,同理如果有1000种特征,就可以在1000维的空间中表示它,而这个绘制样本的空间我们称它为特征空间(feature space)

    通过可视化绘制样本点后,我们可以比较轻易的绘制出一根直线,红色样本在直线的一边而蓝色样本在直线的另一边。

    分类任务本质就是在特征空间切分,在高维空间同理。

    而鸢尾花拥有4个特征,应该是在4维特征空间中分析。

    特征可以很抽象

    • 图像,每一个像素点都是特征
    • 28*28的图像有28*28=784个特征
    • 如果是彩色图像特征更多
  • 相关阅读:
    绿色版Notepad++ 加右键带图标菜单
    C#中string和StringBuilder的区别
    C#中string和String的区别
    C#中is和as的区别
    C#中抽象类(abstract)和接口(interface)的相同点与区别
    c++串口通信实例
    vs2017常用快捷键
    Qt编译opencv找不到头文件
    Qt常用快捷键
    二维数组和指针
  • 原文地址:https://www.cnblogs.com/taoke2016/p/8905933.html
Copyright © 2011-2022 走看看