zoukankan      html  css  js  c++  java
  • 3.NLP

    1.  Evolution of Language:

      1)  不规则过去式随着使用频率的降低在消亡

      2)四字成语,新的语言(吃鸡)等对NLP有巨大挑战

    2. Calude Shannon:

      1)企业发明 通信原理

    3. 熵: 信息量增大的函数

      1). H(x)  >= 0  一件事件x的信息量是大于等于0的

      2). H(x) 与 P  (x)  成反比  发生概率越小 信息量越大

      3)  H(x1,x2) 两者联合函数

        H(x) = log 1/P(x) = - log P(x)

      4)  E(H(x)) = - p(x)*log(P(x))          # 积分或者累加

      分布越均匀,H(x)越大 

    4. KL散度 ;Jensen不等式

    http://blog.itpub.net/69946223/viewspace-2685461/

      KL(P||Q) != KL(Q||P)

      一般使用avgKL(P||Q) = KL(P||Q)+KL(Q||P) / 2

    5. 交叉熵

     

    6.  semantics语义

     7.  P = 3词句子出现概率 / 所有3词句子的总量  

      

    8. Bag - of -Word

    P (I Love China )= P(I)P(Love)P(China)

    每个单词概率都是独立的,没有条件概率所以不准确

     

    其中 X = 某单词词频(term frequency) / 某单词总词频(idf)

    W为训练的权重,图中四个bar chart即为例子

    9.  

  • 相关阅读:
    MERGE INTO
    StringBuffer 去掉最后一个字符
    spring boot 在线项目创建
    centos rpm包下载地址
    maven 添加jdbc6
    初识算法----二分查找
    初识递归
    爬虫----抽屉新热榜
    python基础 字典
    0002 两数相加
  • 原文地址:https://www.cnblogs.com/ChevisZhang/p/13566270.html
Copyright © 2011-2022 走看看