zoukankan      html  css  js  c++  java
  • 数据挖掘实践(5):基础理论(五)数学基础(五)概率(一)学派之争

    1 两个学派的争论

      频率学派认为世界是确定的,有⼀个本体,这个本体的真值是不变的,我们的⽬标就是要找到这个真值或真值所在的范围。
     
      ⽽⻉叶斯学派认为世界是不确定的,⼈们对世界先有⼀个预判,⽽后通过观测数据对这个预判做调整,我们的⽬标是要找到最优的描述这个世界的概率分布。
    1.1 频率学派
      存在唯⼀真值θ。举⼀个简单直观的例⼦—抛硬币,我们⽤P(head)来表示硬币的均匀程度。抛⼀枚硬币100次,有20次正⾯朝上,要估计抛硬币正⾯朝上时硬币的均匀程度 P(head)=θ。在频率学派来看,θ= 20 / 100 = 0.2,很直观。
      当数据量趋于⽆穷时,这种⽅法能给出精准的估计;然⽽缺乏数据时则可能产⽣严重的偏差。例如,对于⼀枚均匀硬币,即θ= 0.5,抛掷5次,出现5次正⾯ (这种情况出现的概率是
    1/2^5=3.125%),频率学派会直接估计这枚硬币θ= 1,出现严重错误。
    1.2 ⻉叶斯学派
      先验:根据统计历史上的经验、常识当下事件发⽣的概率;
      似然:当下事件由果及因发⽣的概率;
      后验:当下事件由因及果发⽣的概率。
      θ是⼀个随机变量,符合⼀定的概率分布。在⻉叶斯学派⾥有两⼤输⼊和⼀⼤输出,输⼊是先验(prior)和似然 (likelihood),输出是后验 (posterior)。 先验,即P(θ),指的是在没有观测到任何数据时对θ的预先判断,例如给我⼀个硬币,⼀种可⾏的先验是认为这个硬币有很⼤的概率是均匀的,有较⼩的概率是是不均匀的;似然,即P(X|θ),是假设θ已知后我们观察到的数据应该是什么样⼦的;后验,即P(θ|X),是最终的参数分布。
      ⻉叶斯公式:
      同样是抛硬币的例⼦,对⼀枚均匀硬币抛5次得到5次正⾯,如果先验认为⼤概率下这个硬币是均匀的 (例如最⼤值取在0.5处的Beta分布),那么P(head),即P(θ|X),是⼀个分布,最⼤值会介于0.5~1之间,⽽不是武断的θ= 1。
  • 相关阅读:
    CentOS安装thrift
    6个用于大数据分析的最好工具
    我的助理辞职了!——给不听话的下属看看
    用Redis bitmap统计活跃用户、留存
    Java从入门到精通——数据库篇Oracle 11g服务详解
    Java从入门到精通——数据库篇之OJDBC版本区别
    非常有用!eclipse与myeclipse恢复已删除的文件和代码
    Redis 代理服务Twemproxy
    Redis集群明细文档
    正则表达式
  • 原文地址:https://www.cnblogs.com/qiu-hua/p/14321550.html
Copyright © 2011-2022 走看看