首先,使用一个 简单的机器学习算法,尽可能快的实现一个机器学习系统(比如24小时以内),用这个算法在训练集上训练拟合得到一个模型,然后 在验证集上进行验证。
其次,画出 学习曲线图 来判断 是需要 更多的数据,还是需要 抽取、添加更多的特征,还是选择其他机器学习算法等等。
最后,可以人工查看 模型在验证集上犯了错误 的那些数据,看看是否能够发现,哪些类型的数据 算法犯了系统性的错误。