zoukankan      html  css  js  c++  java
  • word2vec

    word2vec的学习
    python的几个扩展工具:
    1. numpy
    2. scipy
    3. gensim


     

    如何对新闻的关键词进行聚类?比如说,给你一个关键词“苍井空”,你怎么把“女优”,“写真集”等关联性极高的关键词找到?

    想法1: 用新闻ID向量表示某个关键词,如:苍井空 (新闻ID1,新闻ID2,…)

    可行性: 新闻数较小时,可以用kmeans等方法进行聚类; 但新闻数高达10万时,每个关键词则需要10万维的向量表示,计算难度太大。

    解决方法:google的一个开源工具“word2vec”,可通过输入一个词的集合,计算出词与词之间的距离,通过距离进行聚类。

  • 相关阅读:
    Django01
    WEB框架介绍
    前端插件介绍
    JQuery
    DOM
    js
    css
    HTML
    图片懒加载
    js中style,currentStyle和getComputedStyle的区别
  • 原文地址:https://www.cnblogs.com/twomeng/p/9509391.html
Copyright © 2011-2022 走看看