zoukankan      html  css  js  c++  java
  • NLP概述

    1,词法分析

    待续

    2,文本分类

    文本表示:

    重点是贝叶斯模型:二项表示法和多项表示法。(向量维度为词库大小,一个是01,一个是频次)。模型重点在于化后验为先验。

    还有其他模型:机器学习模型,分布式模型等等。

    特征选择:重要的是TF-IDF。它的意思是一个词在单个文本中出现的次数越多,在其他文本中出现的次数较少,那么这个词的区分度就越高。

    模型检验:accuracy = (TP +TN)/TP+FP+TN+FN  precision = TP / (TP+FP)  recall = TP/(TP+FN)   F=2PR/(P+R)

    3,词性标注(句法分析预处理)

    给每个词标上它的语法属性。

    难点:兼类词的存在。如果没有兼类词,我们查表即可。

    形式化:分类问题。

    假设:有限视野,时间独立,输出独立。

    重点:HMM模型。viterbi算法(动态规划)。复杂度从($N^T$降到$N^2T$)

    welch-Baum算法。

    4,句法分析

    CFG(上下文无关文法): (T,N,S,R)。T:终结符号。N:非终结符号。S:开始符号。R:语法规则。

    自顶向下:目标驱动。自底向上:数据驱动。转换消除法。(shift-Reduce parsing)

    传统的CFG语法解析问题:语法太紧,则应用广度不够,太松,则解析精度不够。

    解决方法:给规则引入概率,结果去概率最大的解析结果。

    PCFG:(T,N,S,R,P)P(R),每条规则概率。

    P(W1n) = 所有解析树的概率和。P(t1)= 该解析树所有分支概率乘积。 解析结果去概率最大的树。

    解析结果往往有指数级别个。常用Inside Probability或Outside Probability计算。

    viterbi取最高的inside probability结果。

    概率从何而来?有树库:从树库提取。没有:EM估计。

  • 相关阅读:
    ubuntu apt 命令相关
    linux 常用命令
    sqli-labs 通关详解(sql注入知识点整理)
    运维手册2---查看机子的系统信息
    运维手册1---ssh命令:使用密钥文件进行登陆
    Java中的==和equals,常量池
    Java Persistence
    VSCode常用插件汇总
    VSCode常用插件之Auto Rename Tag使用
    ESLint 使用指南
  • 原文地址:https://www.cnblogs.com/zqiguoshang/p/6243526.html
Copyright © 2011-2022 走看看