zoukankan      html  css  js  c++  java
  • sklearn countvectorizer坑

    但是如果修改为
    ['驴 福 记 ( 阜通 店 )','...',...]
    执行vectorizer.fit_transform就正常。
    原因是,创建CountVectorizer实例时,有一个默认参数analyzer='word',在该参数作用下,词频矩阵构建过程会默认过滤所有的单字token,所以上面的'驴 福 记 ( 阜 通 店 )'以空格分隔以后全是单字,也就全被过滤了,所以就empty vocabulary了。

    如果想针对单字进行tfidf计算,可以加上参数vectorizer = CountVectorizer(analyzer='char'),此时,输入字符串无需做空格分隔, CountVectorizer会自动按照 单字 进行分隔统计词频。

    要想同时支持 字+词 的tfidf计算,需自定义token正则:
    vectorizer = CountVectorizer(analyzer='word',token_pattern=u"(?u)\b\w+\b")
    ---------------------
    作者:Gandalf_lee
    来源:CSDN
    原文:https://blog.csdn.net/u010967382/article/details/79728404
    版权声明:本文为博主原创文章,转载请附上博文链接!

    @ 蓝波Ai
    你好,没有直接的API来用,不过你可以调用tranform方法,这样可以得到所有样本的类别的一个n_samples x k的矩阵,这样你统计下各个k值的数目即可。

    https://blog.csdn.net/lwgkzl/article/details/80948548

  • 相关阅读:
    Extension Methods(扩展方法)
    linux面试题
    渗透测试 day4
    渗透测试 day3
    渗透测试 day2
    渗透测试 day1
    9.3 网络安全介绍
    9.2 Iptables
    8.30 进程管理
    8.29 linux的网络
  • 原文地址:https://www.cnblogs.com/yjybupt/p/10437442.html
Copyright © 2011-2022 走看看