zoukankan      html  css  js  c++  java
  • 机器学习概述

    一.基本概念

    1. 有监督学习

      对具有概念标记(分类)的训练样本进行学习,以便尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。

      样本已知

    2. 无监督学习

      对没有概念标记(分类)的训练样本进行学习,以便发现训练样本集中的结构性知识。这里,所有的标记(分类)是未知的。因此,训练样本的歧义性高。聚类就是典型的无监督学习。

      样本未知

    3. 准确率与召回率:

      召回率也叫查全率,准确率也叫查准率。

    二.数据集

    1. KDD 99数据

      KDD是知识发现与数据挖掘(Knowledge Discovery and Data Mining)

    2. HTTP DATASET CSIC 2010

      包含大量标注过的针对Web服务的36000个正常请求以及25000个攻击请求,攻击类型包括sql注入、缓冲区溢出、信息泄露、文件包含、xss等,被广泛用于WAF类产品的功能评测

    3. SEA数据集

    4. ADFA-LD数据集

      主机级入侵检测系统的数据集合

    5. Alexa域名数据

      Alexa是当前拥有URL数量最庞大、排名信息发布最详尽的网站。

    6. Scikit-Learn数据集

      最常见的是iris数据集。

    7. MNIST数据集

      入门级的计算机视觉数据集

    8. Movie Review Data

      包含1000条正面的评论和1000条负面的评论,用于文本分类,恶意评论识别方面

    9. SpamBase数据集

      入门级的垃圾邮件分类训练集、

    三.特征提取

    常见数字型和文本型

    1.数字型特征提取

    ​ 数字型特征可以直接作为特征,多于一个多维的特征,某一个特征的取值范围特别大,很可能导致其他特征对结果的影响被忽略。

    预处理的方式

    1. 标准化

    2. 正则化

    3. 归一化

    2.文本特征提取

    文本数据提取特征相对于数字型要复杂的多,本质上是做单词的切分,不同单词当作一个新的特征

    两个非常重要的模型

    词集模型:单词构成的集合,集合中每个元素都只有一个,即词集中的单词只有一个

    词袋模型:如果一个单词在文档中不止出现一次,统计其出现的次数

     

  • 相关阅读:
    你必须知道的495个C语言问题,学习体会四
    ++操作符重载代码分析
    正斜杠 与反斜杠之争
    文件操作基础入门
    你必须知道的495个C语言问题,学习体会三
    你必须知道的495个C语言问题,学习体会二
    【皇甫】☀别进来 千万别进来
    【皇甫】☀设计_模式
    【皇甫】☀七个小矮人和一个小博
    【皇甫】☀游戏还有游戏还是游戏
  • 原文地址:https://www.cnblogs.com/linwx/p/8296967.html
Copyright © 2011-2022 走看看