zoukankan      html  css  js  c++  java
  • Scikit-learn 库的使用

    1. 与文本处理相关的库

      1. 对语料库提取特征词集合

    from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
    #下面的语句初始化 TfidfVectorizer 对象,传入参数有 max_df (df比率大于其的单词进行过滤,停用词,特征词的数量)
    vectorizer = TfidfVectorizer(max_df=_max_df, stop_words={
                                         'english'}, max_features=_vocab_size)
    vectorizer.fit(corpus)
    #通过vectorizer.vocabulary_可以访问特征词的字典,键为特征词,值为特征词在词袋子列表中的下标
    vocal = vectorizer.vocabulary_
    
    #初始化向量统计对象,使用指定的词袋子。否则会自动将语料库中所有长度大于等于2的单词作为词袋子中的成员
    baseline_vectorizer = CountVectorizer(vocabulary=vocab)
    #对语料库二维列表进行特征词统计
    X_base = baseline_vectorizer.fit_transform(corpus)

    2. 稀疏矩阵

      1. 压缩稀疏矩阵行格式(CSR)

    from spicy.sparse.csr import car_matrix
    #rating 列表存储稀疏矩阵的值,(user, item) 组成其对应的行列下标
    R = car_matrix(rating, (user, item))

      使用压缩稀疏行矩阵可以快速的对行进行遍历,得到每行的结果。如果需要对列进行遍历,最好先将其转换为CSC矩阵,使用 tocsc() 成员函数。

  • 相关阅读:
    HDU.2087 剪花布条
    一个acm过来人的心得
    一个acm过来人的心得
    HDU.2190 悼念512汶川大地震遇难同胞——重建希望小学
    HDOJ.2501 Tiling_easy version
    HDOJ.2501 Tiling_easy version
    HDU
    poj3216 Prime Path(BFS)
    poj1426 Find The Multiple (DFS)
    Rikka with Nickname (简单题)
  • 原文地址:https://www.cnblogs.com/hopelee/p/7445937.html
Copyright © 2011-2022 走看看