zoukankan      html  css  js  c++  java
  • NLP学习笔记02---NLP概述(NLP领域的关键技术和应用场景)

    1.什么是NLP

    2.NLP领域的挑战

    (1)同一个意思有多种表达方式

    (2)一词多义(Ambiguity)

    解决一词多义的问题方法:从数据中学习(结合上下文Context)

    3.机器翻译系统的案例

    上图的意思:根据表中的12对翻译结果,翻译所给出的一句话。

    做法:给定语料库,在语料库中做统计,进行匹配(基于统计学)。

    缺点:<1>慢  <2>上下文  <3>语义 <4>语法不对 <5>规则统计

    4.机器翻译的常规步骤

    <1>分词

    <2>根据词典翻译成英文(获得broken english),将这些词对应的所有的组合罗列出来。

    <3>将第2步所得的英文文本输入到语言模型LM中,得到对应的概率。

    上述方法第2步罗列所有可能的计算量特别大需要优化。

    Viterbi算法:维特比算法是一个特殊但应用最广的动态规划算法(DP)

    机器翻译框架总结:

    5.语言模型

    常用的语言模型:unigram、bigram、trigram

    原理说明:利用马尔科夫假设对蓝色式子进行简化。

    6.NLP的应用场景

    <1>问答系统

    <2>情感分析(Sentiment Analysis)

    <3>机器翻译

    <4>自动摘要

    <5>聊天机器人

    <6>信息抽取(Information extraction)

    7.NLP的关键技术

    (1)NLP技术的4个维度

    (2)分词(word segmentation)

    (3)词性分析

    (4)命名实体识别(Named Entity Recogniton)

    (5)句法分析

    (6)依存分析

    (7)关系抽取

  • 相关阅读:
    Python使用struct处理二进制
    ProtoBuf与Python结合使用初步
    智能指针shared_ptr的用法
    C++模板
    mac 安装protobuf,并编译为java,c++,python
    java的HashCode方法
    JVM的内存结构
    HashSet与TreeSet的比较
    面向对象的特征有哪些方面?
    Collection与Collections的区别是什么?
  • 原文地址:https://www.cnblogs.com/luckyplj/p/12751137.html
Copyright © 2011-2022 走看看