暑假开始研究NLP,先从宗成庆老师的《统计自然语言处理》开始学起。
一、语言:语言是由语音、词汇和语法构成的,语音和文字是构成语言的两个基本属性,语音是语言的物质外壳,文字则是记录语言的书写符号系统。
二、语音学:1)发音语音学(articulatory phonetics)
2)声学语音学(acoustic phonetics)
3)听觉语音学(auditory phonetics)
4)仪器语音学(instrumental phonetics)
三、自然语言处理的概念:利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型加工、处理的技术。
交叉学科:语音识别(speech recongnition)
语音合成(speech synthesis)
语音应用:1)人机对话系统
2)语音翻译
3)语音文档摘要
4)语音文档检索
四、NLP研究的内容:1)机器翻译;2)自动文摘;3)信息检索;4)文档分类;5)问答系统;6)文字编辑和自动校对;7)信息过滤;8)语音教学;9)文字识别;
10)语音识别ASR;11)文语转换;12)说话人识别、认证、验证
五、自然语言处理设计的层次:1)形态学
2)语法学
3)语义学
4)语用学
六、面临的困难:1)歧义消解(disambiguation)
2)未知语言现象处理(如网络语言、火星语、游戏语言)
歧义分析结果随着介词短语数目的增加呈现指数上升
组合数开塔兰数
歧义的种类:1)句法结构歧义;2)词类歧义;3)词义歧义;4)语义歧义
七、NLP的基本方法和步骤
1)收集语料作为统计模型建立的基础
2)筛选加工
八、需要课后百度的关键词:上下文无关文法、HMM、噪声信道模型、语义的形式化与计算问题、句法分析问题、指代歧义消解问题、汉语自动分词中的未登录词识别问题