1. 要解决的问题本身需要存在模式(pattern)
存在模式,问题才可以预测,如果你的问题本身就没有模式,或者模式极为不可捉摸,那么你的算法再强大也会失败。
比如,你要预测某个商品网站上衣服的价格,但是这个网站里的衣服都是一个疯狂的销售者根据他每天的心情好坏制定的,而你却去找了一堆衣服的尺码、材质特征来,那么你的算法终究是要失败的。
不过这个问题也是继续深究下去,即特征工程问题,我们如果知道了该商品网站背后定价的真实依据,然后搜集了该销售者每天的实时心情数据,将心情数据向量化成特征,那么这个问题可能就可以得到解决了。
所以,模式的判断,本质上是说:我们用于描述目标对象的特征,是否和该对象的底层规律一致。
2. 时效性问题
即使找到了模式,也总会在某个时间点上,碰到问题的边界。
比如,你要做一个根据女生特征匹配对象的机器学习算法,你的算法总是根据你过去掌握的男女匹配记录做的,而总会在某个时刻,你的对象已经不符合历史数据的规律,这时你要么调整算法,要么直接放弃服务这类无法预测的人。
3. 将现实问题提炼成机器学习问题
从数据清洗、特征提取、模型选择,都不算太难,事实上,机器学习最难的一步,是把现实问题提炼成一个机器学习问题。这需要你对问题本身的深刻洞察。