zoukankan      html  css  js  c++  java
  • 作业1 机器学习概述

    1)Python环境及pip list截图。

    答:图1为Python环境截图,图2-图5为pip list截图。

      

                        图1

             

                            图2 

                          

                     图3                                                      图4                                                                图5

    2)学习笔记。

    答:

    P1机器学习概论

    主要内容

      1、机器学习示例

      2、机器学习的角度看数学:

        2.1 数学分析

          导数与梯度

          Taylor展式的应用

        2.2 概率论基础

          古典概型

          频率学派与贝叶斯学派

          常见概论分布

          Sigmoid/Logistic函数的引入

    什么是机器学习 03:00-40:00

      1、对于某给定的任务T,在合理的性能度量方案P的前提下,某计算机程序 可以自主学习任务T的经验E;随着提供合适、优质、大量的经验E,该程序对于任

         务T的性能逐步提高。

      2、这里最重要的是机器学习的对象:

        2.1 任务Task.T,一个或者多个

        2.2 经验Experience.E

        2.3 性能Performance.P

      3、即:随着任务的不断执行,经验的累积会带来计算机性能的提升。

        Tom Michael Mitchell. 1977(写了一本书,书的名字就叫《机器学习》)

      4、机器学习是人工智能的一个分支。我们使用计算机设计一个系统,使它能够根据提供的训练数据按照一定的方式来学习;随着训练次数的增加,该系统可

         以在性能上不断学习和改进;通过参数优化的学习模型,能够 用于预测相关问题的输出。

      5、有监督学习(如分类、回归):通过已有的一部分输入数据与输出数据之间的相应关系。生成一个函数,将输入映射到合适的输出。

      6、无监督学习(如聚类):直接对输入数据集进行建模。

      7、机器学习的内涵与外延

        7.1 机器学习可以解决什么问题

        给定数据的预测问题,步骤如下:

          ① 数据清洗/特征选择

          ② 确定算法模型/参数优化

          ③ 结果预测

        7.2 不能解决什么

          ① 大数据存储/并行计算

          ② 做一个机器人

      8、案例:预测房屋价格,有一些样本,由这些样本得到一个模型,进行预测,特征有type(房屋类型)、rooms(几居室)、surface(面积)、public

            trans(公共交通),预测sold(房屋价格),采用线性回归模型,目标函数,取最小,可以叫为损失函数,取最大,叫增益函数。超参数需要

            进行调参。

      9、建模:训练数据(Train),可以是文本、图像、声音、交易等等,标记值(Labels),在训练数据中提取特征,然后选择算法,把特征和标记值放进去

           算法,得到模型。

        预测:拿到新的数据,可以是文本、图像、声音、交易等等,没有标记值,提取特征,把特征放进去模型进行计算,得到期望的标记值。

    机器学习的一般流程

      数据收集 ----> 数据清洗 ----> 特征工程 ----> 数据建模 ----> 模型使用

    机器学习方法

      线性回归

      SVM(支持向量机)

      EM算法

      GMM与图像

      图像的卷积

      去均值ICA分离

      带噪声的信号分离

      SVM:高斯核函数的影响RBF

      Crawler爬取数据

      HMM分词:MLE

      LDA

      聚类

      降维

      SVM

      深度学习

    数学分析

      

      

    概率论基础

       

    P4Python基础

    Python

      ① Pip:安装Python包的推荐工具

      ② Numpy:为Python提供快速的多维数组处理能力

      ③ Pandas:在Numpy基础上提供了更多的数据读写工具

      ④ Scipy:在Numpy基础上添加了众多科学计算工具包

      ⑤ MatplotlibPython丰富的绘图库

    Pip

      下载包:pip install 包名

      更新包:pip install 包名 --upgrade

      卸载包:pip uninstall 包名

      查看安装包:pip list

    /继承类:定义类是通过class关键字,当我们定义一个class的时候,可以从 某个现有的class继承,新的class称为子类,而被继承的class称为基类、父类或

          超类。

    导入包import 模块名 [as 别名]

          from 模块名 import 包名(从模块包中导入一个指定包)

    python基础知识:

      1、标准Python的列表(list)中,元素本质是对象,如L = [1,2,3],需要3 个指针和3个整数对象,对于数值运算比较浪费内存和CPU,因此,Numpy 提供了

          ndarray对象:存储单一数据类型的多维数组。

      2、数组大小可以通过其shape属性获得,强制修改shape,如从(3,4)改为  (4,3),但并不是对数组进行转置,而只是改变每个轴的大小,数组元素在内

         存中的位置并没有改变。

      3、使用reshape方法,可以创建改变了尺寸的新数组,原数组的shape保持不变,而且原数组和新数组共享内存,修改任意一个将影响另外一个数组的元素类

        型可以通过dtype属性获得,可以通过dtype参数在创建时 指定元素类型,若更改元素类型,可以使用astype安全的转换。

      4、如果生成一定规则的数据,可以使用Numpy提供的专门函数arange函数 类似于pythonrange函数:指定起始值、终止值和步长来数组,不包括终值,但

            arange以生成浮点类型,而range只能是整数类型。

      5、设定1行打多长:np.set_printoptions(Linewidth=数值) 默认数值为80

      6linspace函数通过指定起始值、终止值和元素个数来创建数组,缺省包括 终止值,可以通过endpoint关键字指定是否包括终止值,默认为True

         logspace函数与linspace函数类似,logspace函数可以创建等比数列。

      7、使用frombufferfromstringfromfile等函数可以从字节序列创建数组。

      8、常规方法:数组元素的存取方法和Python的标准方法相同

        ① 获取某个元素:数组名[下标]

        ② 切片:数组名[a:b]ab表示下标,不包含b

                       数组名[:下标],省略开始下标,表示从0开始

        ③ 切片数据是原数组的一个视图,与原数组共享内容空间,可以直 接修改元素值,因此,在实践中,切实注意原始数据是否被破坏。

      9、根据整数数组存取:当使用整数序列对数组元素进行存取时,将使用整 数序列中的每个元素作为下标,整数序列可以是列表或者数组,使用整数序列作

        为下标获得的数组不和原始数组共享数据空间。

      10、使用布尔数组i作为下标存取数组a中的元素:返回数组a中所有在数 组b中对应下标为True的元素

      11numpypython数学库的时间比较,numpy快。

      12、元素去重。

        ① 直接使用numpy库中的unique函数去重

          ② 把二维数组转换成虚数,再使用unique函数去重

            ③ 把数组中的元素变成元组,再放入集合中

      13numpy中的stack函数:用于将多个数组合并,其中每个数组的shape 都相同,其中axis表示在第几个空间开始进行结合。

    3)什么是机器学习,有哪些分类?结合案例,写出你的理解。

    答:机器学习是人工智能的一个分支。我们使用计算机设计一个系统,使它能够根据提供的训练数据按照一定的方式来学习;随着训练次数的增加,该系统可以

      在性能上不断学习和改进;通过参数优化的学习模型,能够用于预测相关问题的输出。通过已经得到的样本,从样本中特征和标志值,然后将特征和标记值

      放入算法中,得到学习模型;若这时有新样本,当样本中只有特征,没有标记值,即可以将特征放入学习模型中计算,可得到标记值的预测结果。

      如预测房屋价格,先获取一些房屋样本,由这些样本获取特征和标志值,特征有type(房屋类型)、rooms(几居室)、surface(面积)、public trans

      (公共交通),标记值为sold(房屋价格),选择线性回归算法,把特征和标记值放入算法中,不断学习和改进,得到学习模型。拿到新的房屋数据,没有

      房屋价格,提取特征,把特征放进去学习模型进行计算,得到期望的标记值,即预测得到的房屋价格。

      机器学习通常分为四类:监督学习:从标记的训练数据来推断一个功能的机器学习任务,如分类和回归。

                 无监督学习:把没有标签的数据分成一个一个组合,如聚类。

                 半监督学习:在训练阶段结合了大量未标记的数据和少量已标记的数据。

                 强化学习:智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大。

  • 相关阅读:
    JS BOM对象 History对象 Location对象
    JS 字符串对象 数组对象 函数对象 函数作用域
    JS 引入方式 基本数据类型 运算符 控制语句 循环 异常
    Pycharm Html CSS JS 快捷方式创建元素
    CSS 内外边距 float positio属性
    CSS 颜色 字体 背景 文本 边框 列表 display属性
    【Android】RxJava的使用(三)转换——map、flatMap
    【Android】RxJava的使用(二)Action
    【Android】RxJava的使用(一)基本用法
    【Android】Retrofit 2.0 的使用
  • 原文地址:https://www.cnblogs.com/hs01/p/12597644.html
Copyright © 2011-2022 走看看