zoukankan      html  css  js  c++  java
  • 黄聪:Python+NLTK自然语言处理学习(二):常用方法(similar、common_contexts、generate)

    一、similar

    用来识别文章中和搜索词相似的词语,可以用在搜索引擎中的相关度识别功能中。

    text1.similar("monstrous")

    查询出了text1中与monstrous相关的所有词语:

    二、common_contexts

    用来识别2个关键词相似的词语。

    text2.common_contexts(["monstrous","very"])

    三、generate

    用来自动生成文章。

    text3.generate()

    四、len

    可以用于判断重复词密度

    from __future__ import division
    len(text3)
    / len(set(text3))

    图中显示 正文字数/不重复词语字数 = 16,说明有15/16是无效字符。

    五、count

    可以用于判断关键词密度。

    text3.count('smote') / len(text3)

  • 相关阅读:
    石墨烯
    spring 安装
    orm 对象关系映射
    刷机问题
    环境必备
    spring 例子
    刷系统——黑屏问题
    android 文件下载
    c# 事件处理
    回忆测试广告理论
  • 原文地址:https://www.cnblogs.com/huangcong/p/2158054.html
Copyright © 2011-2022 走看看