zoukankan      html  css  js  c++  java
  • 机器学习入门案例

    信用卡欺诈检测:样本不平衡

    • 效果:过采样 > 下采样 > 原始数据
    • SMOTE样本生成
    • 逻辑回归、正则化惩罚项目(增加对权重参数的限制Loss+0.5*W^2)

    拼写纠错:

    新闻分类:数据量大,

    • 分词:jieba.lcut
    • 过滤掉停用词
    • TF-IDF关键词提取:词频*逆文档频率,jieba.analyse.extract_tags
      • 统计词频DataFrame.groupby

      • WordCloud可视化文本显示
    • LDA主题模型,无监督主题分类,也常用于图像处理
      • gensim, corpora, similarities
      • 准备语料库,corpora.Dictionary(), 
      • 对语料库无监督分类
      • 文本特征提取:
        • from sklearn.feature_extraction.text import CountVectorizer
        • from sklearn.feature_extraction.text import TfidfVectorizer
    • 朴素贝叶斯分类,from sklearn.naive_bayes import MultinomialNB

    推荐系统

    • 相似度计算=相关系数
    • 基于用户的协同过滤(UserCF) vs 基于物品的协同过滤(ItemCF)
    • 隐语义模型,有点像给个性贴标签
    • 模型标准评估,具体问题具体分析
    • Surprise库
    • 练习数据:  http://files.grouplens.org/datasets/movielens/

    文本处理

    数据源:https://dumps.wikimedia.org/zhwiki/20180501/

    opencc:繁体转简体

  • 相关阅读:
    第一次作业
    第0次作业
    第14、15周作业
    第七周作业
    第六周作业
    第四周作业
    第三周作业
    第4次作业
    第3次作业
    第二次作业
  • 原文地址:https://www.cnblogs.com/xbit/p/9517585.html
Copyright © 2011-2022 走看看