zoukankan      html  css  js  c++  java
  • 秦曾昌人工智能课程---6、Decision Tree Learning

    秦曾昌人工智能课程---6、Decision Tree Learning

    一、总结

    一句话总结:

    怎样去构建决策树:比如一维:***|00|***|000|***,|为分割线,每个分割点都是一种情况,选一个分割点,然后再选下一个分割点,即可构成二叉树
    决策树是机器学习中最简单的算法

    1、机器学习的决策树算法中怎么构建决策树?

    熵越小信息越有序:把不相干的点划分开,比如***00|***000***,|为分割线
    一维表现:***|00|***|000|***,|为分割线,每个分割点都是一种情况,选一个分割点,然后再选下一个分割点,即可构成二叉树

    2、多维向量如何化为决策树(比如outlook几种,temperature几种,humidity几种,wind几种)?

    条件做分支:如果以outlook为根,如果outlook是sunny怎样,比如判断湿度,如果outlook是rain怎么样,比如判断温度
    叶子节点做结果:以叶子节点来做结果,比如yes啊,no啊,表示是否会去做某事

    3、如何比较两个信息量的大小,比如(H(x1)=你妈妈打电话让你穿秋裤;H(x2)=你辅导员打电话告诉你得了什么奖学金) ?

    概率相关:H(x)=1/P(x):可能和事情发生的概率相关:H(x2)的概率要低

    4、信息量的特点是什么,比如(H(x1)=你妈妈打电话让你穿秋裤;H(x2)=你辅导员打电话告诉你得了什么奖学金) ?

    1、概率相关:H(x)=1/P(x):可能和事情发生的概率相关:H(x2)的概率要低
    2、大于等于0:H(x1)>=0:比如你妈妈给你打了一个电话,你最多觉得这件事没有信息,但是你的信息没有反馈回去给你妈妈
    3、相加性:H(x1,x2)=H(x1)+H(x2)

    5、两件事情的信息量和每件事情信息量之间的关系是什么(H(x1)=你妈妈打电话让你穿秋裤;H(x2)=你辅导员打电话告诉你得了什么奖学金)?

    相加性:H(x1,x2)=H(x1)+H(x2)

    6、满足信息量三个条件的函数可以是什么?

    |||-begin

    1、概率相关:H(x)=1/P(x):可能和事情发生的概率相关:H(x2)的概率要低
    2、大于等于0:H(x1)>=0:比如你妈妈给你打了一个电话,你最多觉得这件事没有信息,但是你的信息没有反馈回去给你妈妈
    3、相加性:H(x1,x2)=H(x1)+H(x2)

    |||-end

    log(1/p(x)):H(x)=log(1/p(x))=-log(p(x)),log以2为底

    7、信息熵是什么,怎么表示?

    信息量的数学期望:Entrapy(x)=Ex[H(x)]=Ex[-log(p(x))],Ex表示数学期望,H(x)表示信息量函数
    作用:描述物体的混合程度:信息熵为0表示只有一种物体,比如叉叉和圈圈的混合中

    8、二维空间中,比如两种点(两种信息)怎么分割开?

    横纵都可分:不仅可以横向分割,还可以纵向分割

    9、低熵体是什么状态?

    高度有序的状态

    10、为什么数学中我们常用2做log的底数?

    方便计算机存储和表示:因为我们想知道在计算机中用多少个01可以把这个结果表示出来

    11、“分子运动的期望就是温度”,这句话怎么理解?

    热就是分子的运动,热就是温度:热就是分子的运动,分子有的运动的快,有的运动的慢,所以分子运动的期望就是温度

    12、信息熵和信息量的关系是什么?

    信息熵小表示信息量大:熵越小,越有序,信息量越大
    信息熵是信息量的期望:信息量越大,熵越多,但是熵就越无序(熵越多越无序)

    13、信息熵和信息量在机器学习中的应用?

    希望熵小,希望信息有序:我们希望熵小,这样信息量有序,我们在机器学习中越方便建立模型

    14、决策树的本质是什么?

    把不相关的因素给它分割开
    决策树的每个叶子(每种情况)相当于你划分的一小块块

    15、划分决策树的三种方式?

    Entropy
    Gini
    Misclassification error

    16、决策树越来越大,我们什么时候该停止?

    停早-学不到数据的性能:如果停的比较早,代表决策树没有很好的学到这些数据的性能
    停晚-过度拟合:如果停的特别往后,又会出现树比较大,过度拟合的问题

    17、决策树算法使用的数据特征有哪些?

    离散数据:比如没有顺序yes,no,比如有顺序的young,old
    连续数据:比如一个人的年龄

    18、信息增益是什么?

    信息熵的变化:信息熵越小,信息增益越大

    19、Gini系数与信息熵在对于不同的分叉的判断是怎样?

    Gini系数越小表示信息越有序,统一
    信息熵越小(信息增益越大)表示信息越有序,统一

    20、决策树算法相当于在特征空间中进行什么样的操作?

    垂直线性分割

    二、内容在总结中

     
  • 相关阅读:
    重新开始Blog生活
    google疯了
    用RJS写的检测用户名和email是否存在
    如何在Postgresql中产生自己的集合function
    Sendonly Mail Server with Exim on Ubuntu 10.04 LTS
    碰巧遇到一些智力面试题,解答一下
    ajax check username available in rails
    准备用C#写一个Blog的客户端,大家看看功能缺哪些,哪些不需要?
    关于 Laravel项目多进程队列配置的使用
    电子围栏软件系统开发方案
  • 原文地址:https://www.cnblogs.com/Renyi-Fan/p/10976656.html
Copyright © 2011-2022 走看看