zoukankan      html  css  js  c++  java
  • 01 文本分析随记

    一、停用词

    1、含义:在语料中大量出现,但对我们分析没什么用的词,但对分析有干扰作用,需要剔除后再计算词频;比如:标点符号,量词等

    2、停用词表百度搜索就有一堆了

    二、TF-IDF

    前言:

          比如对《中国的蜜蜂养殖》进行词频统计,去掉停用词后计算词频发现“中国”、“蜜蜂“、“养殖” 三个词出现的次数一样多,但重要性一样吗?“中国”常见,但“蜜蜂“、“养殖” 不常见,对此案例来说,“蜜蜂“、“养殖” 更重要

    定义:

    TF:词频的缩写

    IDF:逆文档频率; 如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文档的特性,这正是我们需要的关键词

    计算公式:TF - IDF=词频(TF)* 逆文档频率(IDF)   ( 该值越大,说明越重要 )

            --  词频(TF)= 某个词在文章中出现的次数 / 该文所有词出现的次数总和

            -- 逆文档频率 ( IDF )= log( 语料库的文档总数 / ( 包含该词的文档数 + 1) )

    举例:

       《中国蜜蜂养殖》:假定该文有1000个词,“中国”、“蜜蜂“、“养殖” 各出现20次,则这三个词的T F为0.02;

         搜索Google发现,包含“的”字的网页共有250亿张,假定这就是中文网页总数,包含“中国”的网页共有62.3亿张,包含“蜜蜂”的网页为0.484亿张,包含“养殖”的网页为0.973亿张

         进行TF-IDF关键词提取:TF - IDF=词频(TF)* 逆文档频率(IDF)   ( 该值越大,说明越重要 )

         包含该词的文档数(亿)          IDF           TF-IDF    
        中国                    62.3      0.603          0.0121
        蜜蜂              0.484      2.713      0.0543
        养殖              0.973      2.410      0.0482

    三、文本相似度(常用余弦相似度)

    步骤

    1、原始句子:

    句子A:我喜欢看电视,不喜欢看电影

    句子B:我不喜欢看电视,也不喜欢看电影

    2、分词:

    句子A:我/喜欢/看/电视/,/不/喜欢/看/电影

    句子B:我/不/喜欢/看/电视/,/也/不/喜欢/看/电影

    3、提取语料库(词典):我,喜欢,看,电视,电影,不,也

    4、计算词频:(计算句子里出现语料库里词的次数)

    句子A:我1,喜欢2,看2,电视1,电影1,不1,也0

    句子B:我1,喜欢2,看2,电视1,电影1,不2,也1

    5、转为词频向量:

    句子A:[1,2,2,1,1,1,0]

    句子B:[1,2,2,1,1,2,1]

  • 相关阅读:
    webservice底层使用Socket进行网络调用
    jquery事件绑定
    C#连接PostgreSQL查询中文字符出现乱码情况
    Engine加载ArcGIS Online和ArcGIS Server发布的地图服务
    【转载】MFC中tabcontrol控件的使用
    一、VS2010创建一个MFC项目
    二、VS2012配置OpenCV
    三、编译和配置GDAL
    Python调用百度地图API(路线规划、POI检索)
    【转载】Python操作Excel的读取以及写入
  • 原文地址:https://www.cnblogs.com/wodexk/p/10292938.html
Copyright © 2011-2022 走看看