NLP 1、NLP=NLU+NLG 语义理解 意思生成文本或者语义 NLU:语音/文本->意思 natural language understanding NLG:意思->文本/语音 natural language generation 2、为什么NLP比别的更难?why NLP is harder (ie.than computer vision) cv即所见即所得。文本的语义很多有多层意思。 NLP挑战: 多种表达的方式 一词多义 ambiguity 比如: 今天参观了苹果公司 现在正好是苹果的季节 3、how to solve ambiguity?看到data,更新认知 上下文 context eg. Interest bank loan interest concern fascination part ownership 4、机器翻译 machine translation 如果现在要写一个机器翻译系统,应该怎么实现? 人工统计每个单词,提炼规则,一一单词匹配; 缺点:慢 AI方法 语义 上下文 语法不对 规则统计,需要人工; 5、如何解决语法不对 eg. 今晚的课程有意思 方式1: 首先分词-->今晚 的 课程 有意思 Toninght of course interesting 排列组合,列出所有的组合 选择最优的句子,判断最合适的句子(用一个模型判断最合适的句子 Lm(XX)=0.9 LM(XX)=0.86) 这里的LM是语言模型 language model 缺点:排列组合,计算量太大 Translation model->Language model NP hard 时间复杂度是指数复杂度 方式2:decoding 算法 vreXX算法 动态规划 max(p(e|c)) 贝叶斯!!?? p(e|c)=p(c|e)*p(c)/p(c)??朴素贝叶斯? 语言模型(language model): 给定一句英文e,计算概率p(e) 如果是符合英文语法的,p(e)会高 如果是随机语句,p(e)会低 翻译模型(translate model): 给定一对<c,e>,计算p(f|e) 语义相似度高,则p(f|e)高 语义相似度低,则p(f|e)低 decoding algorithm 给定语言模型,翻译模型和f,找出最优的使得p(e)p(f|e)最大