zoukankan      html  css  js  c++  java
  • 7月读自然语言处理入门笔记

    自然语言处理系统的输入源:语音,图像,文本。

    语音识别:将语音经过识别后转化成文本。

    光学字符识别:将图像中的字符识别后转化成文本。

    得到文本后我们会围绕词语分析,这一步称为词法分析。

    词法分析的主要任务:

    1. 中文分词:将文本分成有意义的词语。
    2. 词性标注:确定词语的类别和浅层的歧义消除。
    3. 命名实体识别:识别出较长的专有名词。

    词法分析后,我们可以做些什么事?

    1.得到一些有意义的单词列表,每个列表有自己的词性和其他标签。

    根据这些单词与标签,提取出一部分有用的信息的过程叫做信息抽取

    2.我们可以在文章级别做一系列分析。比如,判断一封邮件是否是垃圾邮件,将文档分门别类的整理。此时的任务被称为文本分类

    我们还可以把相似的文档归到一起,或者排除重复的文档。此时任务称为文本聚类

    3.我们还可以分析出句子的主谓宾结构,这一过程称为句法分析

    自然语言处理的高级任务:

    词义消歧(确定一个词在语境中的含义,不是简单的词性。)

    语义角色标注(标注句子中的谓语与其他成分的关系。)

    语义依存分析(分析句子中词语之间的语义关系。)

  • 相关阅读:
    迭代器与生成器
    11.30
    函数及装饰器
    C#For循环
    C#变量与数据类型
    C#输入输出
    JDK10新特性--var
    idea插件Lombok使用
    NodeJs操作文件-写入、修改、删除、追加、读取文件内容、判断文件是否存在
    mongodb多条件分页查询(mongoTemplate分页查询)
  • 原文地址:https://www.cnblogs.com/liuguangshou123/p/13285094.html
Copyright © 2011-2022 走看看