zoukankan      html  css  js  c++  java
  • bag-of-words 词袋模型

    https://blog.csdn.net/Jaster_wisdom/article/details/81539623

    就是首先对于一个文章而言,把一个文章的所有单词提取出来,去重,得到所有出现的单词,这就是词袋。

    然后对于一个句子,把句子里面的所有单词提取出来,然后在对应位置修改这些单词出现的频度

    这样,对于一个句子,就抽象成为了一个map,例如:I have an egg, you have an apple. 可以看作:{{I:1},{you:1},{an:2},{have:2},{egg:1},{apple:1}}

    对于一般的图像或者音频,首先分成一个个小段,但是这些小段可能太散了,直接抽象成单词会使得频度过小,没有意义

    所以用聚类算法,把一些小段归为一类,这就得到了抽象以后的词袋。

    然后和文章的处理一样就行了。

    词袋算法有广泛应用,可以想到的是:

    1.fhr扔给我的题,有这种影子。但也不完全一样。

    2.论文查重,感觉不知道是不是也是一样的算法(句子中的语气词虚词什么的先略掉,然后再处理频度)

  • 相关阅读:
    ror小记
    uuid before_create
    好东西jquery ui slider
    ror
    rails3 reventl
    ad
    wiki guide tutorial
    忽然意识到我需要端正态度
    20101022网站更新部署
    ECFA
  • 原文地址:https://www.cnblogs.com/Miracevin/p/14945499.html
Copyright © 2011-2022 走看看