作为一个应用驱动的学科,数据挖掘已经在许多应用中获得巨大成功。我们不可能一一枚举数据挖掘扮演关键角色的所有应用。在知识密集的应用领域,如生物信息学和软件工程,数据挖掘的表现更需要深人处理,这已经超出本书的范围。应用作为数据挖掘研究与开发的主要方面,其重要性不言而喻,为了解释这一点,我们简略讨论两个数据挖掘非常成功和流行的应用例子:商务智能和搜索引擎。
- 商务智能
对于商务而言,较好地理解它的诸如顾客、市场、供应和资源以及竞争对手等商务背景是至关重要的。商务智能(BI)技术提供商务运作的历史、现状和预测视图,例子包括报告、联机分析处理、商务业绩管理、竞争情报、标杆管理和预测分析。
“ 商务智能有多么重要?”没有数据挖掘,许多工商企业都不能进行有效的市场分析,比较类似产品的顾客反馈,发现其竞争对手的优势和缺点,留住具有高价值的顾客,做出聪明的商务决策。
显然,数据挖掘是商务智能的核心。商务智能的联机分析处理工具依赖于数据仓库和多维数据挖掘。分类和预测技术是商务智能预测分析的核心,在分析市场、供应和销售方面存在许多应用。此外,在客户关系管理方面,聚类起主要作用,它根据顾客的相似性把顾客分组。使用特征挖掘技术,可以更好地理解每组顾客的特征,并开发定制的顾客奖励计划。
- Web搜索引擎
Web搜索引擎是一种专门的计算机服务器,在Web上搜索信息。通常,用户查询的搜索结果用一张表返给用户(有时称做采样(hit ) )。采样可以包含网页、图像和其他类型的文件。有些搜索引擎也搜索和返回公共数据库中的数据或开放的目录。搜索引擎不同于网络目录,因为网络目录是人工编辑管理的,而搜索引擎是按算法运行的,或者是算法和人工输人的混合。
Web搜索引擎本质上是大型数据挖掘应用。搜索引擎全方位地使用各种数据挖掘技术,包括爬行。(例如,决定应该爬过哪些页面和爬行频率)、索引(例如,选择被索引的页面、和决定构建索引的范围)和搜索(例如,确定如何排列各个页面、加载何种广告、如何把搜索结果个性化或使之“环境敏感”)。
搜索引擎对数据挖掘提出了巨大挑战。首先,它们必须处理大量并且不断增加的数据。通常,这种数据不可能使用一台或几台机器处理。搜索引擎常常需要使用由数以千计甚至数以万计的计算机组成的计算机云,协同挖掘海量数据。把数据挖掘方法升级到计算机云和大型分布数据集上是一个需要进一步研究的领域。
另一个挑战是在快速增长的数据流上维护和增量更新模型。例如,查询分类器可能需要不断地增量维护,因为新的查询不断出现,并且预先定义的类别和数据分布可能已经改变。大部分已有的模型训练方法都是离线的和静态的,因而不能用于这种环境。
第三,Web搜索引擎常常需要处理出现次数不多的查询。假设搜索引擎想要提供环境敏感的推荐。也就是说,当用户提交一个查询时,搜索引擎试图使用用户的简况和他的查询历史推断查询的环境,以便快速地返回更加个性化的回答。然而,尽管整个查询数量是巨大的,但是大部分查询都只是提问一次或几次。对于数据挖掘和机器学习方法而言,这种严重倾斜的数据都是一个挑战。
本文源于:《数据挖掘概念与技术》