机器学习入门案例 - 走看看

zoukankan html css js c++ java

机器学习入门案例
信用卡欺诈检测：样本不平衡
- 效果：过采样 > 下采样 > 原始数据
- SMOTE样本生成
- 逻辑回归、正则化惩罚项目（增加对权重参数的限制Loss+0.5*W^2）
拼写纠错：

新闻分类：数据量大，
- 分词：jieba.lcut
- 过滤掉停用词
- TF-IDF关键词提取：词频*逆文档频率，jieba.analyse.extract_tags
  
  统计词频DataFrame.groupby
  
  WordCloud可视化文本显示
- LDA主题模型，无监督主题分类，也常用于图像处理
  
  gensim, corpora, similarities
  
  准备语料库，corpora.Dictionary(),
  
  对语料库无监督分类
  
  文本特征提取：
  
  from sklearn.feature_extraction.text import CountVectorizer
  
  from sklearn.feature_extraction.text import TfidfVectorizer
- 朴素贝叶斯分类，from sklearn.naive_bayes import MultinomialNB
推荐系统
- 相似度计算=相关系数
- 基于用户的协同过滤（UserCF） vs 基于物品的协同过滤（ItemCF）
- 隐语义模型，有点像给个性贴标签
- 模型标准评估，具体问题具体分析
- Surprise库
- 练习数据： http://files.grouplens.org/datasets/movielens/
文本处理

数据源：https://dumps.wikimedia.org/zhwiki/20180501/

opencc：繁体转简体
查看全文

相关阅读:
AWK 思维导图
 Foreach嵌套Foreach速度慢优化方案
 tp框架where条件查询数据库
 TP如何进行批量查询
 判断是否是爬虫在访问网站
 Mysql数据库配置文件my.cnf详解
 mysql中数据导出成excel文件语句
 大型网站的灵魂——性能
 电商系统中的商品模型的分析与设计
 大型网站系统架构的演化

原文地址：https://www.cnblogs.com/xbit/p/9517585.html

Copyright © 2011-2022 走看看