zoukankan      html  css  js  c++  java
  • ml in action part 1

    1. 分类

    前两部分主要探讨监督学习(supervisedieaming )

    目标变量:标称型和数值型 

    标称型目标变量的结果只在有限目标集中取值,如真与假、动物分类集合{ 爬行类、鱼类、哺乳类、两栖类、植物、真 菌 } ;数值型目标变量则可以从无限的数值集合中取值,如 0.10042.001、〗000.743等 

    前七章主要研究分类算法

    机器学习:就是把无序的数据转换成有用的信息

    监督学习:分类和回归,知道预测什么,有目标变量的分类信息

    1)机器学习的主要任务就是分类。

    测试机器学习算法的效果,通常使用两套独立的样本集:训练数据和测试数据

    2)另一项任务是回归,它主要用于预测数值型数据

    无监督学习:无类别,无目标值

    聚类:将数据集合分成由类似的对象组成的多个类的过程 

    密度估计 :寻找描述数据统计值的过程 

    1.2 应用程序步骤

    1 )收集数据。 制作网络爬虫从网站上抽取数据 ,公共源等

    2 )准备输入数据 。数据格式处理

    3)分析输入 数 据 ,确保没有垃圾数据

    4)训 练 算 法 ,无监督略过

    5) 测 试 算 法 

    6 ) 使 用 算 法

    1.3 Python

    SciPy和NumPy 等许多科学函数库都实现了向量和矩阵操作

    绘图工具Matplotlib协同工作。Matplotlib可以绘制2D30图形

    缺点:性能问题

    NumPy, 矩阵处理

    randMat = mat(random.rand(4,4))

    randMat.I  求逆

    安装:

    https://pypi.python.org/pypi/setuptools下载setuptools-34.3.0.zip,解压到python目录下Scripts目录中,cd到该目录下,执行python setup.py来安装easy_install,安装完成,执行easy_install.py pip,此时pip应该安装好了,可以把该目录C:python27Scripts也添加到环境变量

    python安装目录 python -m pip install numpy

    验证:from numpy import *

    2. k-邻近算法,kNN

    测量不同特征值之间的距离方法进行分类

    优 点 :精度高、对异常值不敏感、无数据输入假定。
    缺点:计算复杂度高、空间复杂度高。
    适用数据范围:数值型和标称型。

    原理:样本集中每个数据都存在标签,即我们知道样本集中每一数据
    与所属分类的对应关系。输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的
    特征进行比较,然后算法提取样本集中特征最相似数据(最 近 邻 )的分类标签

    1)电影分类

    使 用 P y th o n 导 入 数 据 ,createDataSet
    从文本文件中解析数据 ,classify

    2)dating people 分类

  • 相关阅读:
    A Simple Problem with Integers poj 3468 多树状数组解决区间修改问题。
    Fliptile 开关问题 poj 3279
    Face The Right Way 一道不错的尺取法和标记法题目。 poj 3276
    Aggressive cows 二分不仅仅是查找
    Cable master(二分题 注意精度)
    B. Pasha and String
    Intervals poj 1201 差分约束系统
    UITextField的快速基本使用代码块
    将UIImage转换成圆形图片image
    color转成image对象
  • 原文地址:https://www.cnblogs.com/yuanming/p/8423499.html
Copyright © 2011-2022 走看看