zoukankan html css js c++ java

Scikit-learn 库的使用

1. 与文本处理相关的库

　　1. 对语料库提取特征词集合

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
#下面的语句初始化 TfidfVectorizer 对象，传入参数有 max_df (df比率大于其的单词进行过滤，停用词，特征词的数量）
vectorizer = TfidfVectorizer(max_df=_max_df, stop_words={
                                     'english'}, max_features=_vocab_size)
vectorizer.fit(corpus)
#通过vectorizer.vocabulary_可以访问特征词的字典，键为特征词，值为特征词在词袋子列表中的下标
vocal = vectorizer.vocabulary_

#初始化向量统计对象，使用指定的词袋子。否则会自动将语料库中所有长度大于等于2的单词作为词袋子中的成员
baseline_vectorizer = CountVectorizer(vocabulary=vocab)
#对语料库二维列表进行特征词统计
X_base = baseline_vectorizer.fit_transform(corpus)

2. 稀疏矩阵

　　1. 压缩稀疏矩阵行格式(CSR)

from spicy.sparse.csr import car_matrix
#rating 列表存储稀疏矩阵的值，(user, item) 组成其对应的行列下标
R = car_matrix(rating, (user, item))

　　使用压缩稀疏行矩阵可以快速的对行进行遍历，得到每行的结果。如果需要对列进行遍历，最好先将其转换为CSC矩阵，使用 tocsc() 成员函数。

查看全文

相关阅读:
js判断background颜色明暗色调,以设置白/黑字体颜色
 js, 树状菜单隐藏显示
 SQL联接外联接内联接完全联接交叉联接
 zend studio设置utf8
ul,li设置inline-block缝隙
 Php DOMDocument 中的 formatOutput
Mysql查询一个表的所有字段名
 将php数组存取到本地文件
 绑定方法和属性
 __slots__ 属性绑定

原文地址：https://www.cnblogs.com/hopelee/p/7445937.html