python —— 文本特征提取 CountVectorize - 走看看

zoukankan html css js c++ java

python —— 文本特征提取 CountVectorize

CountVectorize

来自：python学习文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理 - CSDN博客

https://blog.csdn.net/shuihupo/article/details/80930801

常用数据输入形式为：列表，列表元素为代表文章的字符串，一个字符串代表一篇文章，字符串是已经分割好的

CountVectorizer同样适用于中文

参数表作用

stop_words 停用词表；自定义停用词表

token_pattern 过滤规则；

属性表作用

vocabulary_ 词汇表；字典型

get_feature_names() 所有文本的词汇；列表型

stop_words_ 返回停用词表

CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵，矩阵元素a[i][j] 表示j词在第i个文本下的词频。即各个词语出现的次数，通过get_feature_names()可看到所有文本的关键字，通过toarray()可看到词频矩阵的结果。

方法表作用

fit_transform(X) 拟合模型，并返回文本矩阵

查看全文

相关阅读:
吴裕雄--天生自然 R语言开发学习：图形初阶
 吴裕雄--天生自然 R语言开发学习：导入数据
 如何基于阿里云搭建适合初创企业的轻量级架构？
基于协同过滤算法的推荐
 重磅！阿里巴巴工程师获得 containerd 社区席位，与社区共建云时代容器标准
 完爆 Best Fit，看阿里如何优化 Sigma 在线调度策略节约亿级成本
 阿里云物联网边缘计算加载MQTT驱动
 阿里云物联网平台体验(树莓派+Python篇)
RAM SSO功能重磅发布 —— 满足客户使用企业本地账号登录阿里云
 阿里云高级技术专家带你全面了解云主机性能评测

原文地址：https://www.cnblogs.com/yxh-amysear/p/9506047.html

Copyright © 2011-2022 走看看