机器学习与数据 - 走看看

zoukankan html css js c++ java

机器学习与数据
2001年Bank和Bill做了这么一个实验

区分容易混淆的词，如（to, two, too）

比如：For breakfast I ate two eggs.

他们用了不同的算法：
- Perceptron (Logistic regression)
- Winnow
- Memory-based
- Naïve Bayes
并绘制了下图

可以看到，不同算法得到差不多的性能。但是它们有一个共同点：随着数据的增加，算法性能都在提升。

于是它们得到结论：It's not who has the best algorithm that wins. It's who has the most data.

这个结论有时是对的，有时又是不对的

合理运用大量数据

使用有很多参数的学习算法（比如，有很多特征的逻辑回归或线性回归；有很多隐含层的神经网路）

大量数据不太容易出现过拟合

遇到问题从以下两方面考虑
- 人可以达到什么程度
  
  比如，对于“For breakfast I ate ___ eggs.”问题，一个英语好的人就可以解答的很好；对于“只给出房子的大小来预测房价”，一个很有经验的买房者也很难给出答案。
- 我们能获得很多数据吗？
查看全文

相关阅读:
Spring AOP总结(三)
Spring AOP源码解析(二)
java9新特性
 BeanFactory和ApplicationContext的区别总结
 Elasticsearch7.X为什么移除类型(type)
elasticsearch性能优化(二)
elasticsearch性能优化（一）
elasticsearch的master选举机制
 自动化构建和部署应用系统平台
 关系型数据库之mysql-01

原文地址：https://www.cnblogs.com/qkloveslife/p/9888363.html

Copyright © 2011-2022 走看看