zoukankan      html  css  js  c++  java
  • "模式识别与机器学习"读书笔记——1.6 Information Theory

    信息论初步。

    越少出现的事件其包含的信息量越大,用h(x)表示, h(x)需满足性质:h(x,y)=h(x)+h(y),x,y是两个不相关事件。

    由此可以对h(x)建立模型:h(x)=-log2p(x)。

    如果要把本地的随机发生的事件传到另一个地方,需要传输的平均信息量为:

    这个H[x]也叫做熵。x的分布越均匀,熵越大。

    熵在信息学上很像那个最短路径编码,都表明了传递信息所需要的最短信息量。

    然后举了个物品分配箱子的例子证明分布越平均,熵越大。

    对连续分布的变量结论依旧成立,也给出了证明。

    1.6.1 Relative entropy and mutual information

    如果我们要用一个分部q表示实际分部p,如何才能定量描述这两者之间差多远呢?

    用相对熵就可以,恒大于等于0,只有q与p相等时才为0

    如果两个分布不是独立的,如何确定它们之间的不独立程度,就要用到mutual information概念,就是求p(x,y)与p(x)p(y)的相对熵

  • 相关阅读:
    DynamoDB-条件表达式ConditionExpression
    更新表达式updateExpression
    AWS AppSync 的基本语句
    post和get的区别
    图片缩小右移旋转
    加入购物车飞入特效
    c# out参数直接写法
    unity vs 重复打开
    canvas与sprite射线检测
    MySQL语法大全
  • 原文地址:https://www.cnblogs.com/plwang1990/p/2102890.html
Copyright © 2011-2022 走看看