zoukankan      html  css  js  c++  java
  • 【笔记】DLHLP

    课程名称:深度学习与人类语言处理(Deep Learning for Human Language Processing)

    (自然语言包括文本和语音两种形式,不过自然语言处理大多时候指的是文本处理,所以这门课的名字叫人类语言处理以便区分,因为这门课语音和文本的内容是1:1的)

    人类语言处理的终极目标:让机器能够听懂人说的话,看懂人写的句子,并有能力说出人听得懂的话,写出人看得懂的句子。

    世界上只有56%的语言有文字形式,而且有些语言的文字系统未必被人们广泛使用(不如语音直接)。所以语音也是非常重要的,而且语音这部分不仅仅只有语音识别任务。

    人类语言处理的困难之处
    1秒的语音有16K个采样点,每个点包含256个可能的取值。
    而且没有人能够说同一段话两次,而语音的波形相同的。
    而且一句话其实是可以无限长的。

    人类语言处理包含的任务

    虽然人类语言处理的任务比较难,不过在深度学习中方法却比较简单,如下图所示(图中的Model就是Deep Network),各种问题硬train一发就能搞定。

    自动语音识别ASR

    传统的语音识别,包含前端信号处理、声学模型、语言模型还有词典等,要把这些部分都学通,较为复杂,而且模型通常需要2G大小,比较大。
    而目前的End-to-End的模型,只需要80MB,可以运行在手机上。

    语音合成TSS

    在课程视频里演示的语音合成案例里,下图的不同长短的“发财”它的语调居然都是不同的,而这些都是模型自己学出来的(很神奇)。
    不过这种黑盒算法也会有一些问题,虽然对于长句效果很好,不过对于短词效果较差(数据问题,训练数据中短句或者单词较少),比如谷歌历史上的翻译破音问题。

    语音转换:人声分割SS和音色迁移VC

    人声分割:就是把一段语音中混合的不同声音分离出来(End-to-End的模型直接就能做,傅里叶变换都不需要)。
    音色迁移:就是把一个人说过的话做音色迁移,输出的结果听起来像是由另外一个人说出来的。甚至还可以输出完全不同的内容。

    语音分类:人声辨识SR和关键词识别KS

    人声辨识:判断语音是谁说的,
    关键词辨识:判断语音中是否出现了关键词。比如唤醒词,Hi, Siri.

    文本生成

    生成方式:自回归(逐个生成)和非自回归。

    应用包括翻译、摘要、聊天机器人、自动问答等。

    此外,本门课程还会讲Meta Learning,知识图谱,对抗攻击,可解释AI等内容。

  • 相关阅读:
    Saltstack module acl 详解
    Saltstack python client
    Saltstack简单使用
    P5488 差分与前缀和 NTT Lucas定理 多项式
    CF613D Kingdom and its Cities 虚树 树形dp 贪心
    7.1 NOI模拟赛 凸包套凸包 floyd 计算几何
    luogu P5633 最小度限制生成树 wqs二分
    7.1 NOI模拟赛 dp floyd
    springboot和springcloud
    springboot集成mybatis
  • 原文地址:https://www.cnblogs.com/yanqiang/p/13253787.html
Copyright © 2011-2022 走看看