zoukankan      html  css  js  c++  java
  • TfidfVectorizer、CountVectorizer 和 TfidfTransformer 的简单教程

    TfidfVectorizer、CountVectorizer 和 TfidfTransformer 是 sklearn 中处理自然语言常用的工具。TfidfVectorizer 相当于 CountVectorizer + TfidfTransformer。
    下面先说 CountVectorizer。

    CountVectorizer

    CountVectorizer 的作用是将文本文档转换为计数的稀疏矩阵。下面举一个具体的例子来说明(代码来自于官方文档)。

    from sklearn.feature_extraction.text import CountVectorizer
    # 定义一个 list,其中每个元素是一个文档(一个句子)
    corpus = [
        'This is the first document.',
        'This document is the second document.',
        'And this is the third one.',
        'Is this the first document?',
    ]
    vectorizer = CountVectorizer()
    # 将文本数据转换为计数的稀疏矩阵
    X = vectorizer.fit_transform(corpus)
    # 查看每个单词的位置
    print(vectorizer.get_feature_names())
    #输出为 ['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
    
    # 由于 X 存储为稀疏矩阵,需要转换为 array 才能查看
    print(X.toarray())
    # 输出为
    # [[0 1 1 1 0 0 1 0 1]
    #  [0 2 0 1 0 1 1 0 1]
    #  [1 0 0 1 1 0 1 1 1]
    #  [0 1 1 1 0 0 1 0 1]]
    

    其中 vectorizer.get_feature_names()包含了数据中出现的所有单词去重后的集合,相当于一个词典。当然你也可以给 CountVectorizer 提供一个单独的词典,否则 CountVectorizer 会自己从数据中学习到词典。

    X.toarray()是查看文档转化后的计数矩阵。比如矩阵的第一行[0 1 1 1 0 0 1 0 1]对应于文档中的第一句This is the first document.,表示词典中对应位置的单词出现的次数。

    This is the first document转为为计数矩阵后如下:

    and document first is one second the third this
    0 1 1 1 0 0 1 0 1

    其他句子也是类似的规则,这里不再赘述。
    原来文档元素个数是 4,每个元素是一个句子,长度不固定。X.toarray()的维度是 (4,9),
    可以看到转化之后的计数矩阵的元素是 4,每个元素的长度固定为 9,这里的 9 就是字典的长度。

    TfidfTransformer

    使用计算 tf-idf。tf 表示词频率,而 tf-idf 表示词频率乘以逆文档频率。这是信息检索中常用的一种术语权重方案,在文档分类中也得到了很好的应用。如果你还不了解 tf-idf,请阅读阮一峰老师的这篇文章
    使用 TfidfTransformer 如下,输出的 tf-idf 矩阵维度也是 (4,9)

    from sklearn.feature_extraction.text import TfidfTransformer
     
    transform = TfidfTransformer()    
    Y = transform.fit_transform(X)    # 这里的输入是上面文档的计数矩阵
    print(Y.toarray())                # 输出转换为tf-idf后的 Y 矩阵
    

    输出为:

    [[0.         0.46979139 0.58028582 0.38408524 0.         0.
      0.38408524 0.         0.38408524]
     [0.         0.6876236  0.         0.28108867 0.         0.53864762
      0.28108867 0.         0.28108867]
     [0.51184851 0.         0.         0.26710379 0.51184851 0.
      0.26710379 0.51184851 0.26710379]
     [0.         0.46979139 0.58028582 0.38408524 0.         0.
      0.38408524 0.         0.38408524]]
    

    TfidfVectorizer

    TfidfVectorizer 相当于 CountVectorizer 和 TfidfTransformer 的结合使用。上面代码先调用了 CountVectorizer,然后调用了 TfidfTransformer。使用 TfidfVectorizer 可以简化代码如下:

    # 把每个设备的 app 列表转换为字符串,以空格分隔
    apps=deviceid_packages['apps'].apply(lambda x:' '.join(x)).tolist()
    vectorizer=CountVectorizer()
    transformer=TfidfTransformer()
    # 原来的 app 列表 转换为计数的稀疏矩阵。
    cntTf = vectorizer.fit_transform(apps)
    # 得到 tf-idf 矩阵
    tfidf=transformer.fit_transform(cntTf)
    # 得到所有的 APP 列表,相当于词典
    word=vectorizer.get_feature_names()
    


    如果你觉得这篇文章对你有帮助,不妨点个赞,让我有更多动力写出好文章。


    我的文章会首发在公众号上,欢迎扫码关注我的公众号张贤同学


  • 相关阅读:
    【爬虫】对新笔趣阁小说进行爬取,保存和下载
    第二次学习记录(Python)
    大厂Redis高并发场景设计,面试问的都在这!
    自定义注解!绝对是程序员装逼的利器!!
    利用Python将多张图片合成视频
    理解Python闭包,这应该是最好的例子
    爬取某知名网站的数据
    用Python爬取日向、樱坂成员blog中的JPG文件的url并将其下载到本地
    爬虫入门经典(二十二) | 破解base64加密之爬取安居客
    现实世界的Windows Azure:采访AppPoint的技术总监Rajesekar Shanmugam
  • 原文地址:https://www.cnblogs.com/zhangxiann/p/13490607.html
Copyright © 2011-2022 走看看