zoukankan      html  css  js  c++  java
  • bag-of-words 词袋模型

    https://blog.csdn.net/Jaster_wisdom/article/details/81539623

    就是首先对于一个文章而言,把一个文章的所有单词提取出来,去重,得到所有出现的单词,这就是词袋。

    然后对于一个句子,把句子里面的所有单词提取出来,然后在对应位置修改这些单词出现的频度

    这样,对于一个句子,就抽象成为了一个map,例如:I have an egg, you have an apple. 可以看作:{{I:1},{you:1},{an:2},{have:2},{egg:1},{apple:1}}

    对于一般的图像或者音频,首先分成一个个小段,但是这些小段可能太散了,直接抽象成单词会使得频度过小,没有意义

    所以用聚类算法,把一些小段归为一类,这就得到了抽象以后的词袋。

    然后和文章的处理一样就行了。

    词袋算法有广泛应用,可以想到的是:

    1.fhr扔给我的题,有这种影子。但也不完全一样。

    2.论文查重,感觉不知道是不是也是一样的算法(句子中的语气词虚词什么的先略掉,然后再处理频度)

  • 相关阅读:
    Bresenham画线算法
    DDA算法
    GL_LINES & GL_LINE_STRIP & GL_LINE_LOOP
    贝塞尔曲线
    弱引用
    Lambert模型
    ShadowVolume
    Phong Shading
    求反射向量
    Vertex Modifier of Surface Shader
  • 原文地址:https://www.cnblogs.com/Miracevin/p/14945499.html
Copyright © 2011-2022 走看看