zoukankan      html  css  js  c++  java
  • 数据挖掘容易被忽略的概念——状态的可观察和可感知性

    如果有两类随机变量X和Y,由某个联合分布中可以采样(X,Y)。根据采样可以估算互信息H(Y|X),相信很多人都会。但是,这样的户信息是否有意义呢?现在来看,至少存在两个问题:1. 计算户信息需要得到联合分布或条件分布,而用样本来估计分布会有天然的误差;2. X或Y可能不是合适的状态的定义。第1条比较简单,已经有若干方法可以解决,如加入先验Beta分布。

    第2条是什么意思呢?比如某个用户u访问了一个页面p,我们可以用这个页面的ID来代表这个页面,用用户的cookie来代表用户,进而计算互信息(不限于互信息,还可以是其它反映u和p之间的correlation的量)。在这种情况下,我们可以通过U和P的互信息来表示二者联系的强弱。

    这里面的问题是,U和P使用的用于表示状态的变量不合适。比如U里面,可能有两个不同的u,实际上是相同的用户;P里面也有类似的情况。这是一种容易被理解的表达,实际上,可以更深一步考虑,这里的U和P之所以状态表示不合适,是因为U和P不同表示的实际差异是不可观察或不可感知的(为了避免绝对的不可观察和不可感知的情况,实际上是观察差异和表示差异不相同)。如果使用熵的概念来定义,就是$H(U)<H(U'), H(P)<H(P')$,其中$U', P'$表示实际的具有可以被感知的差异状态表示。因此H(P|U)的估计也就很不准确了。

    对信息的压缩表示,如Sparse Coding/聚类,是解决这个问题的方法。工程上叫做“粒度”。

  • 相关阅读:
    2015.10.9js(页面坐标)
    2015.8.2js-19(完美运动框架)
    2015.7.12js-11(DOM基础)
    2015.7.7js-07-2(基础)
    2015.7.11js-10(无缝滚动)
    2015.7.10js-07(简单时间)
    2015.7.8js-05(简单日历)
    2015-7.7森林探秘季
    jquery scroll()滚动条事件
    资源(127.0.0.1)处于联机状态,但未对连接尝试做出反应
  • 原文地址:https://www.cnblogs.com/bqzhao/p/3419332.html
Copyright © 2011-2022 走看看