第二次作业

zoukankan html css js c++ java

第二次作业
本次课程的课上和复习笔记我都手写记录了，我将其以pdf的形式保存在云端，老师可以下载查看。内容包括：1.模式识别的基本概念；2.基于距离的分类器；3.概率分类法；4.支持向量机（线性判据）5.人工神经网络基础

链接：https://pan.baidu.com/s/1tegmqXK715U1scg1xQwklg
提取码：yzpf

课程总结和心得

这段时间我把本次课程又重新回顾了一下，总的来说，第一章是基础，其余章节都是介绍模型方法，应用场景、理论推导、优化过程、算法等，每章都可独立阅读而不受其他章节影响。如果只是每一章都看完，顶多就是了解了一种方法，相互之间是割裂的，这样当碰到一个实际问题，仍然无法获得思路完整的求解方法，因而有必要在阅读时就要有意识甚至刻意的建立起知识架构。机器学习一般解决问题的步骤包括如下：

1. 数据抽象

将数据集和具体问题抽象成数学语言，用恰当的数学符号表示，这样方便描述和解决问题。

2. 设定性能度量指标

机器学习主要工作就是产生一个合适的模型。一般来说模型都有误差。如果模型学的太好，把训练样本自身的一些特点当成所有样本具有的潜在一般性质，这种情况称为过拟合，这样的模型在面对新样本时就会出现较大误差，也就是是模型的泛化性能下降。不同的性能度量会导致不同的评判结果，好的性能度量能够直观的显示模型的好坏，同时也能看到不同模型，或者模型在不同参数下对解决问题的程度好坏。还包括一些其他的指标，包括混淆矩阵，RP曲线，ROC曲线，AUC等。这块内容在第一章最后一节课讲到。

3.数据的预处理

拿到的数据集可能存在诸多问题，我们要先对这些问题进行处理，再使用这些数据如：
- 样本属性太多：我们可以对数据进行降维或特征选择
- 样本数量不足：这种情况在图片数据中常见，我们可以对图片进行各种处理，如：旋转、调节对比度等
总的来说，数据预处理是一个非常重要的过程，实际上数据预处理往往会和模型选择结合在一起。

4.模型选择
1. 基于距离的分类器
  
  把测试样本到每个类之间的距离作为决策依据，将测试样本判定为与其距离最近的类，这里主要是MED分类器和MICD分类器。
2. 基于概率的分类
  
  有MAP分类器，Bayes分类器，KNN分类器
3. 线性判据
  
  重点介绍了串行感知机和并行感知机，重点介绍了SVM
5. 训练和优化

选定了模型，如何训练和优化也是一个重要问题。
- 如果要评估训练集和验证集的划分效果，常用的有留出法、交叉验证法、模型调参等
- 如果模型计算时间太长，可以考虑剪枝
- 如果是过拟合，则可通过引入正则化项来抑制（补偿原理）
查看全文

相关阅读:
HBase 文件读写过程描述
 Kafka 部署指南-好久没有更新博客了
 《Python高性能编程》——列表、元组、集合、字典特性及创建过程
 Ansible常用功能
 vim内替换文件内容
 线程队列-queue
Python多进程
 python多线程知识-实用实例
 夜间模式的实现
 本地通知的实现

原文地址：https://www.cnblogs.com/ruanjunxi/p/12831313.html

课程总结和心得

1. 数据抽象

2. 设定性能度量指标

3.数据的预处理

4.模型选择

5. 训练和优化