zoukankan      html  css  js  c++  java
  • 机器学习与数据

    2001年Bank和Bill做了这么一个实验

    区分容易混淆的词,如(to, two, too)

    比如:For breakfast I ate   two   eggs.

    他们用了不同的算法:

    • Perceptron (Logistic regression)
    • Winnow
    • Memory-based
    • Naïve Bayes

    并绘制了下图

    可以看到,不同算法得到差不多的性能。但是它们有一个共同点:随着数据的增加,算法性能都在提升。

    于是它们得到结论:It's not who has the best algorithm that wins. It's who has the most data.

    这个结论有时是对的,有时又是不对的


    合理运用大量数据

    使用有很多参数的学习算法(比如,有很多特征的逻辑回归或线性回归;有很多隐含层的神经网路)

    大量数据不太容易出现过拟合


    遇到问题从以下两方面考虑

    • 人可以达到什么程度
      • 比如,对于“For breakfast I ate ___ eggs.”问题,一个英语好的人就可以解答的很好;对于“只给出房子的大小来预测房价”,一个很有经验的买房者也很难给出答案。 
    • 我们能获得很多数据吗?
  • 相关阅读:
    代理模式
    组合模式
    策略模式
    状态模式
    js 未结束的字符串常量错误解决方法
    struts2+hibernate+poi导出Excel实例
    Java 实现导出excel表 POI
    ExtJS 4.2 中自定义事件
    dhtmlxGrid分页查询,条件查询实例
    '@P0' 附近有语法错误
  • 原文地址:https://www.cnblogs.com/qkloveslife/p/9888363.html
Copyright © 2011-2022 走看看