zoukankan      html  css  js  c++  java
  • nlp知识

    1、词集模型

           将每个词的出现与否作为一个特征,不考虑词频。也就是一个词在文本在文本中出现1次和多次特征处理是一样的。

     2、词袋模型

          与词集相比,会考虑词频

    sklearn中 CountVectorizer与

    CountVectorizer: 会以每一个词作为特征,求出每一个词的词频

    http://www.cnblogs.com/pinard/p/6688348.html 

    3、hash feature

       特征哈希是一种降维的方法,因为由于词袋模型产生的向量维度很大,而特征哈希就是对每一个特征进行hash以进行降维

       具体参考https://www.cnblogs.com/pinard/p/6688348.html

         

     TF-IDF

    vacabulary的作用:

    1、原理

    2、应用

        估计一个词在一篇文章的重要程度。 主题分类

        与余弦定理一样,可以判断两篇文章的相似度

    3、不足

        仅考虑词频,没考虑单词之间的位置信息

    word2vec 词向量

    1、onehot 稀疏向量

         定义:维数为 所有单词的个数 N,如果该单词存在表示为1,其余位置为0

         缺点:1、如果单词过多,会引起维度灾难

                     2、无法体现近义词之间关系

    2、密集向量

          定义:基本思路是通过训练将每个词映射成一个固定长度的短向量,所有这些向量就构成一个词向量空间,每一个向量可视为该空间上的一个点

  • 相关阅读:
    js联系题目
    js运算符
    太极图
    第一周 Welcome
    对 vscode 自动格式化的结果不太满意,我们该如何自己调整直至自己满意为止
    ASP.NET MVC5.0 OutputCache不起效果
    对照实验(1)-批量清理系统临时文件
    ES6
    19.局部变量和全局变量
    18.函数定义和参数
  • 原文地址:https://www.cnblogs.com/zhaopAC/p/9198650.html
Copyright © 2011-2022 走看看