zoukankan      html  css  js  c++  java
  • 机器学习之字典特征提取

      使用第三方库sklearn.feature_extraction:

     1 #字典特征提取
     2 from sklearn.feature_extraction import DictVectorizer
     3 #字典特征提取
     4 def dict_demo():
     5     data = [{'city':'北京','temperature':100}, {"city":'上海',"temperature":60}, {"city":'深圳',"temperature":30}]
     6     #1实例化转换器对象(默认sparse=True返回值为稀疏矩阵)
     7     transfer = DictVectorizer(sparse=False)
     8     #2调用函数特征提取fit_transform()
     9     data_new = transfer.fit_transform(data)
    10     print("data_new:
    ",data_new)
    11 if __name__ == '__main__':
    12     dict_demo()

      结果截图:

      图①:

     

      实例化转换器对象DictVectorizer()时,参数默认为:sparse=True时:

      结果截图:

      图②:

      

      结果图②中的元组代表的是图①中的非0点的位置,当sparse=true时,大大节省了内存(没有存放值为0的点)

      当我们实例化对象时参数sparse若不设置为true,呢么也可以通过data.toarray()函数将图②输出格式变为图①矩阵格式输出。

       

  • 相关阅读:
    chr(9) chr(10) chr(13) chr(32)
    分割字符串
    日期提取函数EXTRACT
    数据泵在本地导出数据到远程数据库中
    CEIL与FLOOR
    GROUPING SETS与GROUP_ID
    LISTAGG
    AVG
    COUNT
    Scala 泛型类型和方法
  • 原文地址:https://www.cnblogs.com/liyuchao/p/12532804.html
Copyright © 2011-2022 走看看