zoukankan      html  css  js  c++  java
  • 微软亚洲研究院语音组的研究成果

    微软亚洲研究院语音组的研究方向主要是语音识别\语音合成\ 人际间语音互动\音频分析检索.

    语音合成
    研究方向:自然用户界面

    研究小组:语音组 2007/01/01
    我们的任务是,让计算机像人一样自然的说话。我们的研究包括:预测及实现自然韵律;可大可小的语音合成及文字预处理平台;主观与客观评估语音质量等。我们开发了多语言的、可供文语转换的通用研究平台,综合文本分析、韵律分析以及单元选择和拼接等。

    详细内容:
    请听在线演示自然流利的普通话和英文文语转换“木兰”合成系统(网址:http://www.research.microsoft.com/speech/tts.asp)。

    音乐导航
    研究方向:自然用户界面

    研究小组:语音组 2008/11/18
    音乐导航(Music Steering),是指通过音乐内容分析、推荐和筛选,交互式生成音乐列表,使你可以方便地找到想听的歌曲。当用户有几千首歌储存在音乐播放器中(比如iPod, Zune,和智能手机),如何选择想要听得音乐便成了一个问题。

    详细内容:
    用户可能没有时间从中选择所有想听的音乐;而且用户在不同的时候也想听不同的音乐。目前音乐播放器提供 的“shuffle” 功能,基本上是随机播放音乐,只能满足用户最基本的需求。“音乐导航”提供给用户“smart shuffle” ­­— 一种便捷的方式来选择和欣赏音乐。 通过“音乐导航”中,用户可以只选择一首音乐,系统就会自动生成一个”音乐电台”,推荐给用户一些相似的音乐。 用户可以欣赏推荐的歌曲,也可以选择喜欢或删除不喜欢的歌曲。基于用户的反馈和偏好,歌曲推荐列表(电台中的音乐)就会自动地调整。用户还可以通过音乐筛选来选择适合不同场景下听的音乐, 比如在阅读时听柔和的音乐。 其中的主要技术是自动音乐内容分析,并对每一首歌检测50个音乐属性, 包括风格、乐器、音调、和节奏等。 基于这些属性来推荐音乐,生成音乐电台。

    能说会唱的小人头
    研究方向:自然用户界面

    研究小组:语音组 2008/11/18
    “能说会唱的人小人头”展示一个新的音频/视频人机界面。经此界面可由隐马可夫统计模型将文字转成语音,词与谱换为歌唱,此外头部动作与嘴型同步的视频信号也将与说/唱的音频信号一同播放。

    详细内容:
    统计模型由音频与视频的信息和相关的文字,歌词与音符(旋律)批量资料进行训练。以音频与视频的信息及其运动轨迹建成参数化的统计模型。语音参数模型由语音音位的频谱包络,音长与基频之音高三部分组成。歌唱模型则由歌词与旋律训练而成。

    基于最大似然度的统计模型既由个人之语音和歌唱数据客观生成,个人化之语音和歌唱信号亦可依同一客观准则合成。在视频中,自然的头部动作,同步的发声口型也可由相关的韵律变更和音位的次序而产生。如有需要,头部动作与嘴型变换也可以互动模式由人工进行调整。

  • 相关阅读:
    发送邮件(公共方法)
    Des加密解密(公共方法)
    星期几以及周,月份天数的计算(共用方法)
    生成随机字符(公共方法)
    MD5函数(公共方法)
    字符串的截取(公共方法)
    AES加密解密
    日期选择控件
    ios CAF音频转换为MP3
    iOS中获取各种文件的目录路径和文件
  • 原文地址:https://www.cnblogs.com/qiuhong/p/2781522.html
Copyright © 2011-2022 走看看