zoukankan      html  css  js  c++  java
  • nlp——词袋模型BOW

    词袋模型也称为BOW,亦即bag of words

     

    下面通过一个列子说明词袋模型

    有两个文本文档如下A和B:

    A:John likes to watch movies. Mary likes too.
    B:John also likes to watch football games.

     

    具体实现方式:

    基于上述两个文档中出现的单词,构建如下一个词典 (dictionary):

    {"John": 1, "likes": 2,"to": 3, "watch": 4, "movies": 5,"also": 6, "football": 7, "games": 8,"Mary": 9, "too": 10}

    上面的词典中包含10个单词, 每个单词有唯一的索引, 那么对应A和B文本我们可以使用一个10维的向量来表示。如下:

    A:[1, 2, 1, 1, 1, 0, 0, 0, 1, 1] #John在A中出现一次,likes在A中出现2次,.......,also在A中出现0次

    B:[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

    对向量解释如下:

    向量的维度根据词典中不重复单词的个数确定。

    向量中每个位置的指代的单词与文本中单词出现的顺序没有关系,与词典中的单词顺序——对应。

    向量中每个数值是词典中每个单词在文本中出现的频率——即词频表示。

    缺点:

    无法考虑词语之间的顺序。

  • 相关阅读:
    NXOpen 创建方体block代码
    Mysql---2 DDL DML DQL DCL
    Mysql数据库--1数据库操作
    FFmpeg
    Servlet Web
    Java web Springboot
    Java 网络
    Java 注解 反射
    Java 线程状态
    Java Lambda
  • 原文地址:https://www.cnblogs.com/AntonioSu/p/12259348.html
Copyright © 2011-2022 走看看