自然语言处理系统的输入源:语音,图像,文本。
语音识别:将语音经过识别后转化成文本。
光学字符识别:将图像中的字符识别后转化成文本。
得到文本后我们会围绕词语分析,这一步称为词法分析。
词法分析的主要任务:
- 中文分词:将文本分成有意义的词语。
- 词性标注:确定词语的类别和浅层的歧义消除。
- 命名实体识别:识别出较长的专有名词。
词法分析后,我们可以做些什么事?
1.得到一些有意义的单词列表,每个列表有自己的词性和其他标签。
根据这些单词与标签,提取出一部分有用的信息的过程叫做信息抽取。
2.我们可以在文章级别做一系列分析。比如,判断一封邮件是否是垃圾邮件,将文档分门别类的整理。此时的任务被称为文本分类。
我们还可以把相似的文档归到一起,或者排除重复的文档。此时任务称为文本聚类。
3.我们还可以分析出句子的主谓宾结构,这一过程称为句法分析。
自然语言处理的高级任务:
词义消歧(确定一个词在语境中的含义,不是简单的词性。)
语义角色标注(标注句子中的谓语与其他成分的关系。)
语义依存分析(分析句子中词语之间的语义关系。)