机器学习中的五个实际问题及其对业务的影响
如今,很多企业需要快速处理大量数据。与此同时,市场竞争格局正在迅速发展变化,因此企业能够快速做出决定至关重要。
就像商业管理畅销书《快鱼吃慢鱼》的作者Jason Jennings和Laurence Haughton所说的那样:“如今的市场竞争不是大鱼吃小鱼,而是快鱼吃慢鱼。”
企业的业务成功在于采用更好的信息快速做出决策,机器学习在其中起着重要作用。无论企业是试图向客户提出建议改进其制造流程,还是预测市场变化,机器学习都可以通过处理大量数据来提供帮助,从而在企业寻求竞争优势时更好地为其提供支持。
然而,尽管机器学习提供了巨大的机会,但仍然存在一些挑战。机器学习系统依赖大量数据以及执行复杂计算的能力,由于客户期望值发生变化或意外的市场波动等外部因素,这意味着企业需要监控和维护机器学习模型。
此外,在机器学习中还有一些实际问题需要解决。以下将探讨和研究五个关键的实际问题及其对业务的影响。
1. 数据质量
机器学习系统的应用需要大量数据。这些数据可大致分为两类:特征和标签。
特征是机器学习模型的数据输入。这些数据可以是来自传感器、客户调查表、网站cookie或历史信息的数据。
这些属性的结果是可变的。例如,客户可能没有正确填写或者不填写调查问卷;传感器可能会出现故障并传递错误的数据;网站cookie可能会提供关于用户在网站上具体操作的不完整信息。因此数据集的质量是很重要的,这样才能正确地训练模型。
数据也可能充满无用信息,这可能会误导机器学习模型做出错误的预测。
机器学习模型的输出是标签。标签的稀疏性也是一个问题,在稀疏的标签中,用户可能知道系统的输入,但不确定输出是什么。在这种情况下,检测模型的特征和标签之间的关系可能极具挑战性。这可能是劳动密集型的工作,因为这需要人为干预来将标签与输入关联起来。
如果没有输入到输出的准确映射,那么模型可能无法学习输入和输出之间的正确关系。机器学习依赖于输入和输出数据之间的关系来创建可用于做出预测,并为未来行动提供建议的概括。当输入的数据混乱、不完整或发生错误时,很难理解出现特定的输出或标签的原因。
2. 复杂性和质量之间的权衡
建立强大的机器学习模型需要大量的计算资源来处理特征和标签。编码复杂的模型需要数据科学家和软件工程师付出巨大的努力。复杂的模型可能需要大量的计算能力才能执行,并且可能需要更长的时间才能得出可用的结果。
这对企业来说是一种权衡。他们可以选择做出更快的反应,但准确性可能较低。或者他们可以接受较慢的响应,但可以从模型中获得更准确的结果。然而进行妥协并不是什么坏事,因为是否要以更快的响应获得更高的成本和更准确的模型的决定取决于用例。
例如,向零售购物网站上的购物者提出建议需要实时响应,但其结果可能会难以预测。另一方面,股票交易系统需要更可靠的结果。因此,当不需要实时获得结果时,使用更多数据并执行更多计算的模型可能会提供更好的结果。
随着机器学习即服务(MLaaS)产品进入市场,权衡的复杂性和质量将得到更多关注。芝加哥大学的研究人员研究了机器学习即服务(MLaaS)的有效性,发现如果他们对分类器和特征选择等关键决策有足够的了解,他们可以取得与独立分类器相当的结果。
3. 数据中的抽样偏差
许多企业采用机器学习算法为招聘员工提供帮助。例如,亚马逊公司发现他们用来帮助企业挑选求职者的算法是有偏见的。此外,普林斯顿大学的研究人员发现,来自欧洲的应聘者将受到一些人工智能系统的青睐,说明其算法引入了一些人类的偏见。
这里的问题不是具体的模型问题,而是用于训练模型的数据有其自身的偏差。然而,当人们知道数据是有偏差的,可以采用一些方法来消除偏差或减少该数据的权重。
第一个挑战是确定数据中是否存在固有偏差。这意味着要进行一些预处理。尽管可能无法消除数据中的所有偏差,但可以通过人工干预使其影响最小化。
在某些情况下,可能有必要限制数据中的特征数量。例如,忽略种族或性别等特征可以帮助限制有偏见的数据对模型结果的影响。
4. 不断变化的期望和概念漂移
机器学习模型在特定的场景中运行。例如,为零售商的推荐引擎提供支持的机器学习模型在客户查看特定产品时的特定时间运行。但是,客户需求会随着时间而变化,这意味着机器学习模型可能会偏离其设计要交付的内容。
模型可能会由于多种原因而衰减。将新数据引入模型时,可能会发生漂移。这就是所谓的数据漂移。当人们对数据的解释发生变化时,也会发生这种情况。这是概念上的漂移。
为了适应这种漂移,企业需要一个模型,该模型可以使用传入的数据不断更新,改进自身。这意味着企业需要不断检查模型。
这需要收集大量特征和标签,并对更改做出反应,以便可以更新和重新训练模型。虽然再培训的某些方面可以自动进行,但需要一些人为干预。人们必须认识到,机器学习工具的部署不是一次性的活动。
此外,企业采用机器学习工具需要定期检查和更新,以保持相关性并继续提供价值。
5. 监控与维护
创建模型很容易并且可以实现自动化。但是,维护和更新模型需要计划和资源。
机器学习模型是从用于训练模型的特性开始的管道的一部分。然后是模型本身,它是一个需要不断修改和更新的软件。该模型需要标签,以便输入的结果可以被模型识别和使用。模型和系统中的最终信号之间可能存在脱节。
在许多情况下,如果交付的结果出乎意料,如果不是机器学习出现问题,那么可能是供应链中的其他部分出现了问题。例如,推荐引擎可能已经向客户提供了产品,但是有时销售系统和推荐之间的连接可能会断开,并且需要花费一定时间查找错误。在这种情况下,很难告诉模型推荐是否成功。对此类问题进行故障排除可能相当耗费人力。
机器学习技术为企业带来了巨大的好处。预测未来结果以影响客户行为并支持业务运营的能力非常强大。但是,采用机器学习也给企业带来了挑战。企业通过认识到这些挑战并制定解决方案,可以确保他们准备好并有能力应对这些挑战,并充分利用机器学习技术。