zoukankan      html  css  js  c++  java
  • 数据挖掘【3】分类问题(一)

    本期向大家介绍数据挖掘中具体的技术应用,算法中的分类问题(Classification)。

    什么叫分类问题?你给我一堆人过来,每个人有一些属性、标签,身高、体重、年龄诸如此类的属性,然后你让我预测什么呢,比如说好人还是坏人,我建一个模型,能做这件事情,这就叫做分类。

    我为什么能给他打标签,好人还是坏人呢?因为我以前已经见过一批打过标签的人,已经知道了好人长什么样,坏人长什么样,所以现在再来一个人,就可以根据以前学到的这些知识,判断新来的这个人是好是坏。

    给一些训练集,训练出一个模型,使得以后再来一个不在训练集内的未知的对象时,可以预测它是什么样子的,它是红的还是白的,是猫还是狗,所有这样的东西,是可以去训练,可以去预测的。

    分类中有很多的算法,包括决策树啊(Decision Trees)、KNN近邻算法(K-Nearest Neighbours)、神经网络(Neural Networks)、支持向量机(Support Vector Machines),这些我们以后都会慢慢去介绍。

    分类的应用也非常的广,医学上的诊断,这个人有病没病,根据他的体检报告进行分析,这就是一种分类问题,有病没病,或者说肿瘤是恶性良性,都是可以做一种判断的,其他比如客户,他会不会流失,移动调到联通,联通跳到电信,这些都是可以预测的。

    分类(Classification)听上去好像有一些玄乎,怎么就可以去建一个模型,然后去预测一些东西,其实说白了,它就是分界线(Boundaries)。

     

     我们有一个二维的问题,横坐标是一个人的收入,纵坐标是一个人的存款,现在这个人他要去贷款,那银行内部是有一套模型用来评估这个贷款的风险,如上图所示,这个模型会划出一条线,将高收入高存款的客户划入低风险区,其他诸如高收入低存款的月光族,以及高存款但是流水不足的客户划入高风险区。

    未完待续。

    官网:http://www.lenbor.com
  • 相关阅读:
    机器学习【工具】:Numpy
    机器学习【算法】:KNN近邻
    【笔记】:字典内部剖析
    【笔记】:谁偷了我的内存?
    什么是RESTful框架
    音频下载服务
    【模块】:Requests(二)
    【模块】:Weakref
    异步Web服务(二)
    【Win10】UAP/UWP/通用 开发之 RelativePanel
  • 原文地址:https://www.cnblogs.com/lenbor/p/13210950.html
Copyright © 2011-2022 走看看