zoukankan      html  css  js  c++  java
  • 1119

    基于tensorflow的音频分类

    1.数据集的选择:

      Google AudioSet(被分成了三部分:均衡的训练集、不均衡的训练集以及评估集),它是基于有标签的 YouTube 视频片段,可以以两种格式下载:

    • 每一个视频片段都有 CSV 文件描述,包括 YouTube 视频 ID、起始时间和结束时间、以及一个或多个标签,(什么是CSV格式文件?)

    • 提取出的音频特征以 TensorFlow Record 文件的形式被存。(什么是TensorFlow Record?什么用?)

    • note:这些音频特征与YouTube-8M 模型是兼容的,也提供了 TensorFlow VGGish 模型作为特征提取器!可以进行选择!

    2.训练模型:

      note:YouTube8M模型是固定的样本类别数,需要对这个部分进行修改,以将类别数作为参数传入。

        YouTube-8M 能够处理两种类型的数据:总体特征帧特征(Frame-Level )。Google AudioSet 能够将我们之前提到的数据作为特征(feature),同时这种特征是以帧的格式给出的。

        (1)YouTube-8M 模型完整列表(https://github.com/google/youtube-8m#overview-of-models

        (2)note:训练数据是帧格式的,所以必须使用帧级别的模型。

        note:Please also verify that you have Python 2.7+ and Tensorflow 1.0.0 or higher installed.

        note: 使用Audio Features 可以参考ReadMe.

        

      

  • 相关阅读:
    每日作业
    Bootstrap框架
    每日作业
    前端之jQuery
    css之浮动详解
    sh命令
    shell编程:sed的选项
    linux 创建连接命令 ln -s 软链接
    grep与egrep命令
    Centos之命令搜索命令whereis与which
  • 原文地址:https://www.cnblogs.com/ChenKe-cheng/p/9985564.html
Copyright © 2011-2022 走看看