zoukankan      html  css  js  c++  java
  • 模型选择

    数据量小,选用 high bias/low variance模型(Naive Bayes),因为low bias/high variance模型(KNN,logistic regression)会overfit

    Naive Bayes:

    简单,只需要计数就可以;数据量小时,也适用;如果各因素独立(比如词的出现间没有相互影响),会表现很好

    Logistic Regression:

    多种regulization可以使用;有概率输出,可以根据实际场景,调整阈值;适用于在线学习

    SVM:

    准确率高,但参数很多需要调整;适用与维度很高的数据;

    Random forests:

    准确率高,且不需要调整参数;训练快,计算消耗小,可扩展性好;处理类别特征很容易,且对于缺失值也能很好处理;

  • 相关阅读:
    C
    B
    A
    poj1222
    请求转发和重定向
    中文乱码
    Servlet 第一天
    Oracle 锁
    Oracle 包的学习
    初学Linux
  • 原文地址:https://www.cnblogs.com/porco/p/4538208.html
Copyright © 2011-2022 走看看