zoukankan html css js c++ java

sklearn.feature_extraction.DictVectorizer

sklearn.feature_extraction.DictVectorizer：将字典组成的列表转换成向量。(将特征与值的映射字典组成的列表转换成向量)

1. 特征矩阵行代表数据，列代表特征，0表示该数据没有该特征

from sklearn.feature_extraction import DictVectorizer


# 设置sparse=False获得numpy ndarray形式的结果
v = DictVectorizer(sparse=False)
D = [{'foo':1, 'bar':2}, {'foo':3, 'baz':1}]

# 对字典列表D进行转换，转换成特征矩阵
X = v.fit_transform(D)
# 特征矩阵行代表数据，列代表特征，0表示该数据没有该特征
print(X)

2. get_feature_names()获取特征列名

# 获取特征列名
print(v.get_feature_names())

['bar', 'baz', 'foo']

3. inverse_transform将特征矩阵还原成原始数据

# inverse_transform将特征矩阵还原成原始数据
# inverse:相反的
print(v.inverse_transform(X) == D)

4. 直接进行转换，不先进行拟合的话，无法识别新的特征

# 直接进行转换，不先进行拟合的话，无法识别新的特征。即没有fit。
print(v.transform([{'foo':4, 'unseen_feature':3}]))

[[ 0.  0.  4.]]

5. 配合特征选择

from sklearn.feature_selection import SelectKBest, chi2

# 使用卡方统计筛选出最好的2个特征
support = SelectKBest(chi2, k=2).fit(X, [0,1])

# 进行筛选，筛选的结果会自动覆盖原有特征矩阵
print(v.restrict(support.get_support()))
print(v.get_feature_names())

DictVectorizer(dtype=<class 'numpy.float64'>, separator='=', sort=True,
               sparse=False)
['bar', 'foo']

来自： https://www.cnblogs.com/hufulinblog/p/10591339.html

查看全文

相关阅读:
iOS10 的适配问题，你遇到了吗？导航栏标题和返回按钮神奇的消失了
 如何在获取不到第一响应者控件时移除键盘
 类名与字符串的互转
 clang format 官方文档自定义参数介绍（中英文）
clang format 自定义样式常用参数说明
 Xcode 设置代码不自动换行
 企业项目如何打包成.ipa文件
 多个过渡动画效果
 压栈过渡动画
 底部不规则导航栏2

原文地址：https://www.cnblogs.com/keye/p/11157827.html