zoukankan html css js c++ java

python机器学习-特征工程与数据预处理

#字典特征提取
def dict_dome():
    data=[{"city":"北京","temperature":100},{"city":"上海","temperature":100},{"city":"深圳","temperature":100}]
    #1.实例化一个转换类器
    transfer=DictVectorizer(sparse=False)#sparse稀疏矩阵 将非零值按位置表示出来
    #2.调用fit_transform()
    data_new=transfer.fit_transform(data)
    print(data_new)
    print(transfer.get_feature_names())

#对文章进行特征提取
def count_dome():
    data=["Life is short,i like python","Life is too long,i dislike python"]
    #1.实例化一个转换器对象
    transfer=CountVectorizer(stop_words=[])#停用词
    #2.调用fit_transform()
    data_new=transfer.fit_transform(data)
    print(data_new.toarray())
    print(transfer.get_feature_names())

#数据预处理：归一化
def minmax_demo():
    #1.获取文件
    data=pd.read_csv("dating.txt")
    data=data.iloc[:, :3]
    #2.实例化一个转换器类
    transfer=MinMaxScaler()
    #3.调用fit_transform
    data_new=transfer.fit_transform(data)
    print(data_new)

#数据预处理：标准化
def stand_demo():
    # 1.获取文件
    data = pd.read_csv("dating.txt")
    data = data.iloc[:, :3]
    # 2.实例化一个转换器类
    transfer = StandardScaler()
    # 3.调用fit_transform
    data_new = transfer.fit_transform(data)
    print(data_new)

查看全文

相关阅读:
Android sensor 系统框架（一）
enc28j60网卡驱动模块添加进linux内核，Kconfig，Makefile配置过程
 Linux samba服务器配置
 为群晖加把锁：使用ssh密钥保障数据安全
 浦发银行网上银行U盾证书无法更新的解决办法
 克隆Linux系统的网卡设置
 Linux路由：CentOS6的多种玩法
 专心学LINUX：CentOS关闭屏幕自动锁定和睡眠
 群晖：关闭软路由利用双网卡桥接直连电脑上网
 Ceph之二----部署Ceph集群

原文地址：https://www.cnblogs.com/fengchuiguobanxia/p/15432493.html