zoukankan      html  css  js  c++  java
  • 第二次作业

    本次课程的课上和复习笔记我都手写记录了,我将其以pdf的形式保存在云端,老师可以下载查看。内容包括:1.模式识别的基本概念;2.基于距离的分类器;3.概率分类法;4.支持向量机(线性判据)5.人工神经网络基础

    链接:https://pan.baidu.com/s/1tegmqXK715U1scg1xQwklg
    提取码:yzpf

    课程总结和心得

    ​ 这段时间我把本次课程又重新回顾了一下,总的来说,第一章是基础,其余章节都是介绍模型方法,应用场景、理论推导、优化过程、算法等,每章都可独立阅读而不受其他章节影响。如果只是每一章都看完,顶多就是了解了一种方法,相互之间是割裂的,这样当碰到一个实际问题,仍然无法获得思路完整的求解方法,因而有必要在阅读时就要有意识甚至刻意的建立起知识架构。机器学习一般解决问题的步骤包括如下:

    1. 数据抽象

    将数据集和具体问题抽象成数学语言,用恰当的数学符号表示,这样方便描述和解决问题。

    2. 设定性能度量指标

    机器学习主要工作就是产生一个合适的模型。一般来说模型都有误差。如果模型学的太好,把训练样本自身的一些特点当成所有样本具有的潜在一般性质,这种情况称为过拟合,这样的模型在面对新样本时就会出现较大误差,也就是是模型的泛化性能下降。不同的性能度量会导致不同的评判结果,好的性能度量能够直观的显示模型的好坏,同时也能看到不同模型,或者模型在不同参数下对解决问题的程度好坏。还包括一些其他的指标,包括混淆矩阵,RP曲线,ROC曲线,AUC等。这块内容在第一章最后一节课讲到。

    3.数据的预处理

    拿到的数据集可能存在诸多问题,我们要先对这些问题进行处理,再使用这些数据如:

    • 样本属性太多:我们可以对数据进行降维或特征选择
    • 样本数量不足:这种情况在图片数据中常见,我们可以对图片进行各种处理,如:旋转、调节对比度等

    总的来说,数据预处理是一个非常重要的过程,实际上数据预处理往往会和模型选择结合在一起。

    4.模型选择

    1. 基于距离的分类器

      ​ 把测试样本到每个类之间的距离作为决策依据,将测试样本判定为与其距离最近的类,这里主要是MED分类器和MICD分类器。

    2. 基于概率的分类

       有MAP分类器,Bayes分类器,KNN分类器
      
    3. 线性判据

      ​ 重点介绍了串行感知机和并行感知机,重点介绍了SVM

    5. 训练和优化

    选定了模型,如何训练和优化也是一个重要问题。

    • 如果要评估训练集和验证集的划分效果,常用的有留出法、交叉验证法、模型调参等
    • 如果模型计算时间太长,可以考虑剪枝
    • 如果是过拟合,则可通过引入正则化项来抑制(补偿原理)
  • 相关阅读:
    HDU 1010 Tempter of the Bone(DFS剪枝)
    HDU 1013 Digital Roots(九余数定理)
    HDU 2680 Choose the best route(反向建图最短路)
    HDU 1596 find the safest road(最短路)
    HDU 2072 单词数
    HDU 3790 最短路径问题 (dijkstra)
    HDU 1018 Big Number
    HDU 1042 N!
    NYOJ 117 求逆序数 (树状数组)
    20.QT文本文件读写
  • 原文地址:https://www.cnblogs.com/ruanjunxi/p/12831313.html
Copyright © 2011-2022 走看看