【数据挖掘技术】聚类分析

zoukankan html css js c++ java

【数据挖掘技术】聚类分析
聚类（Clustering）分析有一个通俗的解释和比喻，那就是“物以类聚，人以群分”。针对几个特定的业务指标，可以将观察对象的群体按照相似性和相异性进行不同群组的划分。经过划分后，每个群组内部个对象间的相似度会很高，而在不同群组之间的对象彼此间将具有很高的相异度。

聚类技术一方面本身就是一种模型技术，通过有效聚类后的结果常常可以直接指导落地应用实践；另一方面聚类技术又常常作为数据分析过程中前期进行数据摸底和数据清洗、数据整理（数据转换）的工具，在实践应用中有多样性、多元性等特点。

一、聚类分析的典型应用场景

可以说，聚类分析的典型应用场景是非常普遍的，业务团队几乎每天都要碰到。比如说，把付费用户按照几个特定的唯独，如利率贡献率、用户年龄、续费次数等进行聚类分析，得到不同特征的群体。

举个例子：在将付费用户进行聚类分析后，其中一个群体所占的付费人数是40%，其特征的用户年龄是25岁左右，利润贡献不大，但是续费次数多；

另外一个群体，占总付费用人数的15%，而该特征的群体是用户年龄咋40岁以上，利润贡献比较大，但是续费次数不多。

对于运营方来说，这两个典型

二、主要聚类算法分类

聚类分析的算法可以划分为：
- 划分的方法（Partitioning Method）;
- 层次的方法（Hierarchical Method）;
- 基于密度的方法（Density-based Method）;
- 基于网格的方法（Grid-based Method）;
- 基于模型的方法（Model-based Method）
等，其中，前面两种方法最常用。

1、划分的方法（Partitioning Method）

当给定m个对象的数据集，以及希望生成的细分群体数量K后，即可采用这种方法将这些对象分为K组（要求K不超过m），使得每个组内对象时想死的，而组建是相异的。最常用的方法是K-Means方法，其具体原理是：
1 【K-Means方法】 2 step1: 随机选择K个对象，并且所选择的每个对象都代表一个组的初始均值或初始组中心值； 3 step2: 对剩余的每个对象，根据其余各个组初始均值或初始中心值得距离远近，将他们分配给最近的（最相似）小组； 4 step3: 重新计算每个小组新的均值； 5 .... 6 这个过程不断仿佛，知道所有的对象在K组分布中都找到离自己最近的组。
2、层次的方法（Hierarchical Method）

指依次让最相似的数据对象两两合并，这样不断的合并，最终就形成了一个聚类数。

三、聚类技术的应用

聚类技术在数据分析和数据化运营中的主要用途表现在：及尅直接作为模型对观察对现象进行群体划分，为业务方面精细化运营提供具体的细分依据和相应的运营方案建议，又可在数据处理阶段用作数据探索的工具，包括发现离散点、孤立点、数据降维的手段和方面。通过聚类发现数据间的深层次的关系等。

四、聚类技术的扩展应用

可以说，聚类分析的典型应用场景是非常普遍的，业务团队几乎每天都要碰到。比如说，把付费用户按照几个特定的维度，如利润贡献、用户年龄、续费次数等进行聚类划分，得到不同特征的群体。

举个例子：
将付费用户进行聚类划分后，其中一个群体占总的付费用户人数的40%，其特征是用户年龄在25岁左右，利润贡献不大，但是续费次数多；还有一个群体，占总的付费用户人数的15%，而该群的特征是用户年龄在40岁以上，利润贡献比较大，但是续费次数不多。对于运营方来说，这两个典型群体都是可以“着力”的目标群体，并且分别有不同的运营思路和业务价值。
一、对于第一个群体，虽然利润贡献率不大，但是由于续费次数多，其表现出来的产品忠诚度对于企业和产品来说是非常重要、非常可贵的，因此针对该群体的重要运营目的是应该是稳中有升，同时积极预防其流失，密切监控相应的流失率，并且还要进一步分析挖掘该群体的其他特征，从而可以有效赋值该群体的规模，针对其25岁左右的年龄这个特点，可以考虑在运营方式和内容上更加贴近年轻人的喜好和兴趣；二、而针对后一个群体，虽然利润贡献大，但是很不稳定，续费次数少，对企业和产品的忠诚度不高，因此针对该群体的运营重点应该是采取积极措施提升续费率，提升其忠诚度，而该群体“40岁以上的年龄”这个特点，也为相应的云南公司和运营内容的设计提供了比较准确的参考范围。
从上述的简单案例中可以看出，聚类分析的一个重要用途就是针对目标群体进行多指标的群体划分，而类似这种目标群体的分类常常是精细化运营、个性化运营的基础和核心。只有进行了正确的分类，才可以有效进行个性化和精细化的运营、服务及产品支持等，从这个角度来看，聚类分析对于数据化运营而言是非常重要的。

总的来说，聚类分析技术在数据化运营实践中常见的业务应用场景如下：
- 目标客户的群体分类：通过为特定运营目的和商业目标所挑选出的指标进行聚类分析，把目标群体划分为几个有明显特征区别的细分群体，从而可以在运营活动中为这些细分群体采用精细化、个性化的运营和服务，最终提升运营的效率和商业的价值；
- 不同产品的价值组合：企业可以按照不同的商业目的，并依照特定的指标变量来为众多的产品进行聚类分析，把企业的产品体系进一步细分为具有不同价值、不同目的多维度的产品组合，并且可在基础上分别制定相应的产品开发计划、运营计划和服务规划；
- 探测、发现孤立点、异常值：孤立点就是指相对于整体数据对象而言的少数数据对象，这些对象的行为特征与整体的行为特征很不一致。虽然在一般的数据处理过程中会把孤立点作为噪声剔除出去，但是在许多业务领域，孤立点的价值非常重要，比如说，互联网的风险管理，就非常强调对风险的预测和预判，而相关的风险控制分析中的孤立点很多时候又是风险最大的嫌疑人和主要来源。及时发现这些特殊行为对于互联网的风险控制至关重要。比如，说在某B2C电商平台上，比较昂贵的、频繁的交易，就有可能隐含着欺诈的风险成分，需要风控部门提前按关门、监控，防患于未然。
查看全文

相关阅读:
即将到来的“分布式云”（DPaaS）：分布式计算+ DB +存储即服务
 【玩转MLS系列】基础教程
 【云速建站】微信公众平台中维护IP白名单
 基于华为云对话机器人技能平台的规则模板概述
 云享专家倪升武：微服务架构盛行的时代，你需要了解点 Spring Boot
Python一秒搭建ftp服务器，帮助你在局域网共享文件
 华为担纲建设基础软硬件国家新一代AI开放创新平台
 基于华为云区块链服务快速部署和搭建链上应用
 protobuf代码生成
 python的str（）和repr()的区别

原文地址：https://www.cnblogs.com/chenyn68/p/3893534.html