zoukankan      html  css  js  c++  java
  • 基于语音识别、音文同步、图像OCR的字幕解决方案HtwMedia介绍

     

      背景介绍

          俗话说,“好记性不如乱笔头”,这充分说明了文字归档的重要性。如今随着微信、抖音等移动端app的使用越来越广,人们生产音、视频内容也越来越便捷。而相比语音和视频而言,文字具有易存档、易检索、易传播等优点。提取音、视频中的有效信息形成文字并持久化对很多行业都有很现实的意义。

        设想一下,一部有知识含量的课件或科普视频往往需要播放多遍才能吃透,如果把它其中的知识提取出来是不是容易检索、理解方便的多?参加讲座或访谈等用录音笔或者手机就可以录下来,而把它整理出来是不是更容易形成知识?影视剧的生产者按照行业规定通常需要加字幕,而一部优秀的国外影视剧如果把它本地化形成双语字幕对于不掌握国外语言的观众会更有用,等等。这些都是HtwMedia的使用场景。

        HtwMedia是一款windows系统下的专业字幕及音视频应用解决方案。运用最新的自动语音识别、语音合成及机器翻译、图像OCR等技术可实现视频字幕的提取,时间轴的自动生成,字幕文本的自动生成以及字幕文本和语音的自动对齐等功能。另外软件还实现了基于精准音频波形图的时间码及文本的生成及编辑校对功能,提供视频字幕压制、导出到Premiere、Edius、Final cut pro等非编软件等实用功能。

        为什么说HtwMedia是一套解决方案而不仅仅是处理字幕的软件产品呢?因为我们所有的功能都是建立在长时间积累用户需求及使用习惯的基础上,涵盖了在字幕及音视频处理的方方面面。

        比如:

    • 在用户导入媒体文件时,我们会对媒体做音量调整及降噪处理,对时间过长的媒体文件做切割分段。这些预处理会很大程度上提高自动识别及音文同步的性能。让识别及同步准确率提高哪怕一个百分点,让用户节省每一分钟都是我们的追求。
    •  我们会对用户的操作自动保存成工程文件,防止因为操作中断而导致之前的处理结果丢掉。用户再次打开工程的时候可以继续处理。
    •  我们不仅提供基于语言识别的字幕生成,而且提供视频中的字幕提取。经常有用户提到:“如何把DVD的vob和sub文件转成srt压制到视频里?如何把蓝光sup文件转成srt文件?如何提取avi/divx文件中的字幕?如何提取硬压制的视频文件中的字幕”等。我们对此运用了最新的图像OCR技术,对视频做解析后,生成关键帧的图像,从图像中提取特定位置的字幕。在提取过程中可以全自动,当自动识别的文本有稍许错误用户可以随时停止修正。提取视频中的文本后可以继续用我们的音文同步技术生成时间码,可以导入Premire、Edius等非编软件的样式、颜色等模板。最后把生成的ass、srt等文件压制到视频里。
    •  我们提供批量识别媒体、批量音文同步、批量压制字幕等功能,减少用户多次操作,节省用户时间。
    •  我们提供方便的字幕编辑功能。自动语音识别及音文同步目前不可能做到100%准确,尤其是语音环境不好的情况下,所以人工校对不可避免。我们提供了准确的基于音频波形的时间码调整及拍打时间轴功能。另外还有方便的文本编辑器,可以断句,检查字数、分句、合并等。并且播放器、时间轴及文本区互相同步定位。
    •  我们提供基于文本的配音功能。用户只需导入要配音的文本,选择喜欢的人声,软件就可以生成断句好的mp3声音文件。
    •  我们提供自动翻译功能,可以有效的制作双语字幕。
    •  我们提供字幕压制及添加水印功能,可以保护用户的视频不被轻易盗用。
    •  提供视频分离音频功能,这样可以有效的减少媒体文件体积,方便利用语言分析。

      主要技术参数:

      支持的视频格式:

      .avi;.mkv;.wmv;.mpg;.mpeg;.divx;.mp4;.asf;.flv;.mov;.m4v;.vob;.ogv;.webm;.ts;.m2ts;.avs;.mxf

      支持的音频格式:

      *.mp3;*.wav;*.wma;*.ogg;*.mpa;*.m4a;*.ape;*.aiff;*.flac;*.aac;*.ac3;*.mka

       媒体播放器:

      VLC播放器,可叠加字幕文本

       时间轴:

      基于ffmpeg解码的音频pcm数据,采样率为16000,单声道;时间上大格间隔1秒,小格0.1秒。纵向缩放每次调整单位为0.1 scale.

      自动语音识别:

      可识别中、英文及四川、粤语等方言。配合自动切轴、声音预处理后准确率很高。

       音文同步:

      用户导入音视频文件及文本文件后可自动生成时间轴。

      文本翻译:

      支持的语言有中、英文等20多种语言。

       导入文本文件:

      支持TXT,Word,SRT,Ass等文件的导入,编码格式为UTF-8.

      导出文件:

      可以导出TXT,Word,SRT,Ass等文件格式,另外支持导出Premiere的.prtl字幕模板工程、Eduis的.etl模板工程、Avid的STL格式字幕文件、傻丫头字幕模板、Final cut pro的fcpxml格式及fcpxml+image格式的工程。

       联系方式

      官方QQ群:414750884

     

      下载地址

      链接: https://pan.baidu.com/s/1LvpAtZW7vjmGtpgcr191XQ 提取码: x881

     


    作者:Qubook
    出处:http://www.cnblogs.com/hard/
    版权声明:本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文链接。
    联系方式: 个人QQ  1005354833;

  • 相关阅读:
    HTTP 错误 404.2
    SQL Server 2008 R2如何开启数据库的远程连接(转)
    CSS中font-family:中文字体对应的英文名称
    15/18位身份证号码正则表达式(详细版)
    C#获取系统时间及时间格式
    C#正则表达式判断输入日期格式是否正确
    Linux查看机器负载
    模拟HTTP请求超时时间设置
    MySQL show命令的用法
    innodb事务隔离级别
  • 原文地址:https://www.cnblogs.com/Hard/p/HTWMedia-AutoSubtitles.html
Copyright © 2011-2022 走看看