https://blog.csdn.net/Jaster_wisdom/article/details/81539623
就是首先对于一个文章而言,把一个文章的所有单词提取出来,去重,得到所有出现的单词,这就是词袋。
然后对于一个句子,把句子里面的所有单词提取出来,然后在对应位置修改这些单词出现的频度
这样,对于一个句子,就抽象成为了一个map,例如:I have an egg, you have an apple. 可以看作:{{I:1},{you:1},{an:2},{have:2},{egg:1},{apple:1}}
对于一般的图像或者音频,首先分成一个个小段,但是这些小段可能太散了,直接抽象成单词会使得频度过小,没有意义
所以用聚类算法,把一些小段归为一类,这就得到了抽象以后的词袋。
然后和文章的处理一样就行了。
词袋算法有广泛应用,可以想到的是:
1.fhr扔给我的题,有这种影子。但也不完全一样。
2.论文查重,感觉不知道是不是也是一样的算法(句子中的语气词虚词什么的先略掉,然后再处理频度)