zoukankan      html  css  js  c++  java
  • NLP概述

    1,词法分析

    待续

    2,文本分类

    文本表示:

    重点是贝叶斯模型:二项表示法和多项表示法。(向量维度为词库大小,一个是01,一个是频次)。模型重点在于化后验为先验。

    还有其他模型:机器学习模型,分布式模型等等。

    特征选择:重要的是TF-IDF。它的意思是一个词在单个文本中出现的次数越多,在其他文本中出现的次数较少,那么这个词的区分度就越高。

    模型检验:accuracy = (TP +TN)/TP+FP+TN+FN  precision = TP / (TP+FP)  recall = TP/(TP+FN)   F=2PR/(P+R)

    3,词性标注(句法分析预处理)

    给每个词标上它的语法属性。

    难点:兼类词的存在。如果没有兼类词,我们查表即可。

    形式化:分类问题。

    假设:有限视野,时间独立,输出独立。

    重点:HMM模型。viterbi算法(动态规划)。复杂度从($N^T$降到$N^2T$)

    welch-Baum算法。

    4,句法分析

    CFG(上下文无关文法): (T,N,S,R)。T:终结符号。N:非终结符号。S:开始符号。R:语法规则。

    自顶向下:目标驱动。自底向上:数据驱动。转换消除法。(shift-Reduce parsing)

    传统的CFG语法解析问题:语法太紧,则应用广度不够,太松,则解析精度不够。

    解决方法:给规则引入概率,结果去概率最大的解析结果。

    PCFG:(T,N,S,R,P)P(R),每条规则概率。

    P(W1n) = 所有解析树的概率和。P(t1)= 该解析树所有分支概率乘积。 解析结果去概率最大的树。

    解析结果往往有指数级别个。常用Inside Probability或Outside Probability计算。

    viterbi取最高的inside probability结果。

    概率从何而来?有树库:从树库提取。没有:EM估计。

  • 相关阅读:
    POJ_3176_Cow_Bowling_(数字三角形)_(动态规划)
    POJ_3662_Telephone_Lines_(二分+最短路)
    POJ_2739_Sum_of_Consecutive_Prime_Numbers_(尺取法+素数表)
    POJ_3685_Matrix_(二分,查找第k大的值)
    POJ_3579_Median_(二分,查找第k大的值)
    欧拉回路
    状态压缩dp(hdu2167,poj2411)
    poj1182食物链(种类并查集)
    并查集
    树形动态规划
  • 原文地址:https://www.cnblogs.com/zqiguoshang/p/6243526.html
Copyright © 2011-2022 走看看