19-21周,每周学习15小时以上
基础:Python编程基础;基础的概览统计、了解线性代数;足够的时间投入。
完成9个课程项目,每个5小时-15小时
完成聊天机器人项目(40-80小时)
Capstone项目(40-100小时)
至少6篇技术博文
个人github满足标准
期中、期末考试,一周一次Quiz
论文阅读
AI工程师必备的核心技能
现实生活中问题--->数学优化问题--->通过合适的工具解决
什么是NLP
NLP = NLU + NLG
NLU(Natural Language Understanding):语音/文本 -> 意思(meaning)
NLG(Natural Language Generator):意思 -> 文本/语音
NLP为什么难?
歧义:
多种表达方式
一词多义
解决歧义:从数据中学习
机器翻译的三个问题
Language Mode
语言模型的训练过程就是计算概率
应用场景
- 问答系统
- 情感分析
- 机器翻译
- 自动摘要
- 聊天机器人
- 信息抽取
关键技术
自然语言处理技术四个维度
Semantic(语义)机器学习 情感分析
Syntax(句子结构)句法分析、依存分析
Morphology(单词)分词、词性标注、命名实体识别
Phonetics(声音)
https://www.quora.com/What-are-the-major-open-problems-in-natural-language-understanding
请列出至少5位你感兴趣的国外顶尖NLP专家以及他们目前所在单位和主要研究领域:
-
Kevin Knight: 之前USC,现在滴滴LA, 主要研究 Machine Translation
-
-
1.Dan Roth:宾夕法尼亚大学计算机和信息科学系的讲席教授,致力于通过机器学习和推理的方法帮助机器理解自然语言
-
2.Regina Barzilay:MIT CSAIL 教授,通过 NLP 结合患者的诊断报告,对数据进行检索、总结及文本的理解,研究将计算机应用于健康领域
-
3.Michael Collins:Columbia,NLP结构学习领域贡献极大,开发了著名的句法分析器Collins Parser
-
4.Chris Manning:Stanford,以《统计自然语言处理基础》一书以及Stanford NLP (toolkit) 而闻名
-
5.Dan Klein:UCBerkeley,无指导领域学习
请列出至少5位你感兴趣的国内顶尖NLP专家以及他们目前所在单位和研究领域:
-
1.孙茂松:清华大学,研究兴趣比较广泛,涵盖中文信息处理、社会计算、信息检索等
-
2.马少平:清华大学,研究兴趣偏重搜索引擎
-
3.刘挺:哈工大,研究领域主要是自然语言处理、信息检索、内容安全,包括汉语理解、问答系统、基于统计和基于实例的机器翻译、语音合成、文本过滤、文本水印等
-
4.王海峰:百度,机器翻译
-
5.刘群:华为,机器翻译
请列出至少3个国内外你感兴趣的博客(个人博客,提供链接):
请列出至少5个你感兴趣的国内做NLP的公司以及他们主要产品
-
1.科大讯飞,录音笔
-
2.小米,小爱同学
-
3.腾讯,腾讯云文智中文语义平台
-
4.百度,AI开放平台NLP
-
作业
搭建一个简单的智能客服系统
语料库:问题和答案
方法之一:用户输入语句,计算用户输入和问题的相似度,选择相似度最高问题的答案
问题分词--->预处理: 拼写错误 原型 停用词过滤 单词过滤 同义词替换--->向量:boolean、vector count、vector tf-idf、word2vec、seq2seq--->计算相似度--->相似度排序--->返回结果