机器学习概述

zoukankan html css js c++ java

机器学习概述
一.基本概念
1. 有监督学习
  
  对具有概念标记（分类）的训练样本进行学习，以便尽可能对训练样本集外的数据进行标记（分类）预测。这里，所有的标记（分类）是已知的。
  
  样本已知
2. 无监督学习
  
  对没有概念标记（分类）的训练样本进行学习，以便发现训练样本集中的结构性知识。这里，所有的标记（分类）是未知的。因此，训练样本的歧义性高。聚类就是典型的无监督学习。
  
  样本未知
3. 准确率与召回率：
  
  召回率也叫查全率，准确率也叫查准率。
二.数据集
1. KDD 99数据
  
  KDD是知识发现与数据挖掘（Knowledge Discovery and Data Mining）
2. HTTP DATASET CSIC 2010
  
  包含大量标注过的针对Web服务的36000个正常请求以及25000个攻击请求，攻击类型包括sql注入、缓冲区溢出、信息泄露、文件包含、xss等，被广泛用于WAF类产品的功能评测
3. SEA数据集
4. ADFA-LD数据集
  
  主机级入侵检测系统的数据集合
5. Alexa域名数据
  
  Alexa是当前拥有URL数量最庞大、排名信息发布最详尽的网站。
6. Scikit-Learn数据集
  
  最常见的是iris数据集。
7. MNIST数据集
  
  入门级的计算机视觉数据集
8. Movie Review Data
  
  包含1000条正面的评论和1000条负面的评论，用于文本分类，恶意评论识别方面
9. SpamBase数据集
  
  入门级的垃圾邮件分类训练集、
三.特征提取

常见数字型和文本型

1.数字型特征提取

数字型特征可以直接作为特征，多于一个多维的特征，某一个特征的取值范围特别大，很可能导致其他特征对结果的影响被忽略。

预处理的方式
1. 标准化
2. 正则化
3. 归一化
2.文本特征提取

文本数据提取特征相对于数字型要复杂的多，本质上是做单词的切分，不同单词当作一个新的特征

两个非常重要的模型

词集模型：单词构成的集合，集合中每个元素都只有一个，即词集中的单词只有一个

词袋模型：如果一个单词在文档中不止出现一次，统计其出现的次数
查看全文

相关阅读:
[51nod] 1301 集合异或和
 [BZOJ] 1088: [SCOI2005]扫雷Mine
[LUOGU] P4251 [SCOI2015]小凸玩矩阵
 8.21模拟赛
 [BZOJ] 3163: [Heoi2013]Eden的新背包问题
 [BZOJ] 1001: [BeiJing2006]狼抓兔子
 【NOIP2017提高A组冲刺11.8】好文章
 [BZOJ] 1520: [POI2006]Szk-Schools
[BZOJ] 1877: [SDOI2009]晨跑
 day23（事务管理）

原文地址：https://www.cnblogs.com/linwx/p/8296967.html

机器学习概述

一.基本概念

二.数据集

三.特征提取