zoukankan      html  css  js  c++  java
  • 【VS开发】【智能语音处理】VS中声音的采集实现

    vc中声音的采集是用api函数来实现的。

     

    一、数字音频基础知识 

    Fourier级数: 
    任何周期的波形可以分解成多个正弦波,这些正弦波的频率都是整数倍。级数中其他正线波的频率是基础频率的整数倍。基础频率称为一级谐波。 

    PCM: 
    pulse code modulation,脉冲编码调制,即对波形按照固定周期频率采样。为了保证采样后数据质量,采样频率必须是样本声音最高频率的两倍,这就是Nyquist频率。 
    样本大小:采样后用于存储振幅级的位数,实际就是脉冲编码的阶梯数,位数越大表明精度越高,这一点学过数字逻辑电路的应该清楚。 

    声音强度: 
    波形振幅的平方。两个声音强度上的差常以分贝(db)为单位来度量, 

    计算公式如下: 
    20*log(A1/A2)分贝。A1,A2为两个声音的振幅。如果采样大小为8位,则采样的动态范围为20*log(256)分贝=48db。如果样本大小为16位,则采样动态范围为20*log(65536)大约是96分贝,接近了人听觉极限和痛苦极限,是再线音乐的理想范围。windows同时支持8位和16位的采样大小。 

    二、相关API函数,结构,消息 
    对于录音设备来说,windows 提供了一组wave***的函数,比较重要的有以下几个: 

    打开录音设备函数 
    MMRESULT waveInOpen( 
    LPHWAVEIN phwi, //输入设备句柄 
    UINT uDeviceID, //输入设备ID 
    LPWAVEFORMATEX pwfx, //录音格式指针 
    DWORD dwCallback, //处理MM_WIM_***消息的回调函数或窗口句柄,线程ID 
    DWORD dwCallbackInstance, 
    DWORD fdwOpen //处理消息方式的符号位 
    ); 
    为录音设备准备缓存函数 
    MMRESULT waveInPrepareHeader( HWAVEIN hwi, LPWAVEHDR pwh, UINT bwh ); 
    给输入设备增加一个缓存 
    MMRESULT waveInAddBuffer( HWAVEIN hwi, LPWAVEHDR pwh, UINT cbwh ); 
    开始录音 
    MMRESULT waveInStart( HWAVEIN hwi ); 
    清除缓存 
    MMRESULT waveInUnprepareHeader( HWAVEIN hwi,LPWAVEHDR pwh, UINT cbwh); 
    停止录音 
    MMRESULT waveInReset( HWAVEIN hwi ); 
    关闭录音设备 
    MMRESULT waveInClose( HWAVEIN hwi ); 
    Wave_audio数据格式 
    typedef struct { 
    WORD wFormatTag; //数据格式,一般为WAVE_FORMAT_PCM即脉冲编码 
    WORD nChannels; //声道 
    DWORD nSamplesPerSec; //采样频率 
    DWORD nAvgBytesPerSec; //每秒数据量 
    WORD nBlockAlign; 
    WORD wBitsPerSample;//样本大小 
    WORD cbSize; 
    } WAVEFORMATEX; 
    waveform-audio 缓存格式  
    typedef struct { 
    LPSTR lpData; //内存指针 
    DWORD dwBufferLength;//长度 
    DWORD dwBytesRecorded; //已录音的字节长度 
    DWORD dwUser; 
    DWORD dwFlags; 
    DWORD dwLoops; //循环次数 
    struct wavehdr_tag * lpNext; 
    DWORD reserved; 
    } WAVEHDR; 
    相关消息  
    MM_WIM_OPEN:打开设备时消息,在此期间我们可以进行一些初始化工作 
    MM_WIM_DATA:当缓存已满或者停止录音时的消息,处理这个消息可以对缓存进行重新分配,实现不限长度录音 
    MM_WIM_CLOSE:关闭录音设备时的消息。 
    相对于录音来说,回放就简单的多了,用到的函数主要有以下几个: 
    打开回放设备  
    MMRESULT waveOutOpen( 
    LPHWAVEOUT phwo, 
    UINT uDeviceID, 
    LPWAVEFORMATEX pwfx, 
    DWORD dwCallback, 
    DWORD dwCallbackInstance, 
    DWORD fdwOpen 
    ); 
    为回放设备准备内存块  
    MMRESULT waveOutPrepareHeader( 
    HWAVEOUT hwo, 
    LPWAVEHDR pwh, 
    UINT cbwh 
    ); 
    写数据(放音)  
    MMRESULT waveOutWrite( 
    HWAVEOUT hwo, 
    LPWAVEHDR pwh, 
    UINT cbwh 
    ); 
    相应的也有三个消息,用法跟录音的类似: 

    三、程序设计 

    一个录音程序的简单流程: 打开录音设备waveInOpen===>准备wave数据头waveInPrepareHeader===> 
    准备数据块waveInAddBuffer===>开始录音waveInStart===>停止录音(waveInReset) ===> 
    关闭录音设备(waveInClose) 
    当开始录音后当buffer已满时,将收到MM_WIM_DATA消息,处理该消息可以保存已录好数据。 

    回放程序比这个要简单的多: 打开回放设备waveOutOpen===>准备wave数据头waveOutPrepareHeader===>写wave数据waveOutWrite===> 
    停止放音(waveOutRest) ===>关闭回放设备(waveOutClose) 
    如何处理MM消息: MSDN告诉我们主要有 CALLBACK_FUNCTION、CALL_BACKTHREAD、CALLBACK_WINDOW 三种方式,常用的是 
    Thread,window方式。 
    线程模式 
    waveInOpen(&hWaveIn,WAVE_MAPPER,&waveform,m_ThreadID,NULL,CALLBACK_THREAD),我们可以继承MFC的CwinThread类,只要相应的处理线程消息即可。 
    MFC线程消息的宏为: 

    ON_THREAD_MESSAGE, 
    可以这样添加消息映射: ON_THREAD_MESSAGE(MM_WIM_CLOSE, OnMM_WIM_CLOSE) 
    窗口模式 
    类似于线程模式,参见源程序即可。

    四、实现代码

    #define INP_BUFFER_SIZE (8 * 1024) //定义缓冲区大小
    bool m_record,m_play;    //m_record表示是否正在录音,m_play表示是否正在回放

    WAVEFORMATEX waveform;    //WAV文件头包含音频格式
    DWORD dwDataLength,dwRepetitions; //dwDataLength已有的数据长度,dwRepetitions重复次数
    HWAVEIN hWaveIn;     //输入设备句柄
    HWAVEOUT hWaveOut;     //输出设备句柄
    PBYTE pBuffer1,pBuffer2;   //保存输入数据的两个缓冲区。
             //如果只要一个缓冲区,当缓冲区满,保存数据时,会无法保存这段时间采集的语音,导致最后获得的声音断断续续。
             //使用两个缓冲区,当一个缓冲区满的时候,保存这个已满的缓冲区数据,而由另一个缓冲区继续采集语音。
    PBYTE pSaveBuffer,pNewBuffer;  //保存数据的内存地址。
    PWAVEHDR pWaveHdr1,pWaveHdr2;  //声音文件头

    afx_msg LRESULT OnMM_WIM_OPEN(UINT wParam,LONG lParam);
    afx_msg LRESULT OnMM_WIM_DATA(UINT wParam,LONG lParam);
    afx_msg LRESULT OnMM_WIM_CLOSE(UINT wParam,LONG lParam);
    afx_msg LRESULT OnMM_WOM_OPEN(UINT wParam,LONG lParam);
    afx_msg LRESULT OnMM_WOM_DONE(UINT wParam,LONG lParam);
    afx_msg LRESULT OnMM_WOM_CLOSE(UINT wParam,LONG lParam);  //声明几个回调函数


    pWaveHdr1=reinterpret_cast<PWAVEHDR>(malloc(sizeof(WAVEHDR)));
    pWaveHdr2=reinterpret_cast<PWAVEHDR>(malloc(sizeof(WAVEHDR))); //给声音文件头分配内存空间
    pSaveBuffer = reinterpret_cast<PBYTE>(malloc(1));    //给数据内存地址分配空间

     

    //消息绑定

    BEGIN_MESSAGE_MAP(/*窗口类*/, /*窗口类的父类*/)
     ON_MESSAGE(MM_WIM_OPEN,OnMM_WIM_OPEN)
     ON_MESSAGE(MM_WIM_DATA,OnMM_WIM_DATA)
     ON_MESSAGE(MM_WIM_CLOSE,OnMM_WIM_CLOSE)
     ON_MESSAGE(MM_WOM_OPEN,OnMM_WOM_OPEN)
     ON_MESSAGE(MM_WOM_DONE,OnMM_WOM_DONE)
     ON_MESSAGE(MM_WOM_CLOSE,OnMM_WOM_CLOSE)

    END_MESSAGE_MAP()

     

    void RecordStart()     //录音准备
    {
      m_record=true;
      pBuffer1=(PBYTE)malloc(INP_BUFFER_SIZE);
      pBuffer2=(PBYTE)malloc(INP_BUFFER_SIZE);    //给缓冲区分配空间
      if (!pBuffer1||!pBuffer2)
      {
       if (pBuffer1) free(pBuffer1);
       if (pBuffer2) free(pBuffer2);
       MessageBeep(MB_ICONEXCLAMATION);
       AfxMessageBox(L"Memory error!");
       return ;
      }
      
      //设置录音方式
      waveform.wFormatTag  = WAVE_FORMAT_PCM;   //PCM编码
      waveform.nChannels  = 1;       //单声道
      waveform.nSamplesPerSec = 16000;      //采样频率,每秒采集次数
      waveform.nAvgBytesPerSec= waveform.nSamplesPerSec * sizeof(unsigned short); 
      waveform.nBlockAlign = waveform.nChannels * waveform.wBitsPerSample / 8;
      waveform.wBitsPerSample = 16;       //采样位,模拟信号转数字信号的精准度
      waveform.cbSize   = 0;       //PCM编码时,此处为0
      
      if (waveInOpen(&hWaveIn,WAVE_MAPPER,&waveform,(DWORD)this->m_hWnd,NULL,CALLBACK_WINDOW)) { //打开输入设备
       free(pBuffer1);
       free(pBuffer2);
       MessageBeep(MB_ICONEXCLAMATION);
       AfxMessageBox(L"Audio can not be open!");
      }
      //初始化声音文件头
      pWaveHdr1->lpData=(LPSTR)pBuffer1;   //设置缓冲区
      pWaveHdr1->dwBufferLength=INP_BUFFER_SIZE; //缓冲区大小
      pWaveHdr1->dwBytesRecorded=0;
      pWaveHdr1->dwUser=0;
      pWaveHdr1->dwFlags=0;
      pWaveHdr1->dwLoops=1;
      pWaveHdr1->lpNext=NULL;
      pWaveHdr1->reserved=0;
      waveInPrepareHeader(hWaveIn,pWaveHdr1,sizeof(WAVEHDR));  //将缓冲区信息和输入设备关联
      waveInAddBuffer (hWaveIn, pWaveHdr1, sizeof (WAVEHDR)) ; //将缓冲区地址添加到输入设备中
       
      pWaveHdr2->lpData=(LPSTR)pBuffer2;
      pWaveHdr2->dwBufferLength=INP_BUFFER_SIZE;
      pWaveHdr2->dwBytesRecorded=0;
      pWaveHdr2->dwUser=0;
      pWaveHdr2->dwFlags=0;
      pWaveHdr2->dwLoops=1;
      pWaveHdr2->lpNext=NULL;
      pWaveHdr2->reserved=0;
      waveInPrepareHeader(hWaveIn,pWaveHdr2,sizeof(WAVEHDR));
      waveInAddBuffer (hWaveIn, pWaveHdr2, sizeof (WAVEHDR)) ; //同上
      
      pSaveBuffer = (PBYTE)realloc (pSaveBuffer, 1) ;
      dwDataLength = 0 ;
      waveInStart (hWaveIn) ; //打开输入设备,开始录音
    }
    void RecordStop()
    {
      m_record=false;
      waveInReset(hWaveIn); //停止录音,关闭输入设备
    }
    void PlayStart()
    {
    if (waveOutOpen(&hWaveOut,WAVE_MAPPER,&waveform,(DWORD)this->m_hWnd,NULL,CALLBACK_WINDOW)) //打开输出设备,开始回放
     {
      MessageBeep(MB_ICONEXCLAMATION);
      AfxMessageBox(L"Audio output error");
     }
     m_play=true;
    }
    void PlayStop()
    {
      waveOutReset(hWaveOut);  //停止回放,关闭输出设备
      m_play = false;
    }
    LRESULT OnMM_WIM_OPEN(UINT wParam, LONG lParam) //开始录音
    {
     // TODO: Add your message handler code here and/or call default
     m_record=TRUE;
     TRACE(L"MM_WIM_OPEN ");
     return 0;
    }

    LRESULT ChelloWMDlg::OnMM_WIM_DATA(UINT wParam, LONG lParam) //缓冲区满的时候,对应的声音文件头如pWaveHdr1作为lParam传递进来
    {
     // TODO: Add your message handler code here and/or call default
     // Reallocate save buffer memory
     
     pNewBuffer = (PBYTE)realloc (pSaveBuffer, dwDataLength +
      ((PWAVEHDR) lParam)->dwBytesRecorded) ; 
     
     if (pNewBuffer == NULL)
     {
      waveInClose (hWaveIn) ;
      MessageBeep (MB_ICONEXCLAMATION) ;
      AfxMessageBox(L"error memory");
      return 0;
     }
     
     pSaveBuffer = pNewBuffer ;  //在pSaveBuffer尾部继续申请空间(上面的realloc 函数)
     //////////////////////////////////////////////////////////////////////////
     
     CopyMemory(pSaveBuffer + dwDataLength, ((PWAVEHDR) lParam)->lpData,
      ((PWAVEHDR) lParam)->dwBytesRecorded) ; //将缓冲区数据((PWAVEHDR) lParam)->lpData复制到pSaveBuffer的尾部刚申请的空间中
     
     dwDataLength += ((PWAVEHDR) lParam)->dwBytesRecorded ;//加长pSaveBuffer的实际数据长度
     
     if (m_record==false)
     {
      waveInClose (hWaveIn) ;//停止录音,关闭输入设备
      return 0;
     }
      
     //将音频写入到文件中
     FILE* fp=fopen("ecord.pcm","ab+");
     if(fp==NULL)
     {
      printf("fopen error,%d",__LINE__);
     }
     fwrite(((PWAVEHDR) lParam)->lpData,((PWAVEHDR) lParam)->dwBytesRecorded,1,fp);
     fclose(fp);
     
     // Send out a new buffer
     waveInAddBuffer (hWaveIn, (PWAVEHDR) lParam, sizeof (WAVEHDR)) ;//将缓冲区添加回到设备中
     //假如现在是pWaveHdr1满了,lParam就是pWaveHdr1,在我们保存pWaveHdr1的数据时,pWaveHdr2正在录音,保存完pWaveHdr1,再把pWaveHdr1添加回到设备中,这样达到两个缓冲区交替使用。
     TRACE(L"done input data ");
     return 0;

     
    }

    LRESULT ChelloWMDlg::OnMM_WIM_CLOSE(UINT wParam, LONG lParam) //停止录音时
    {
     // TODO: Add your message handler code here and/or call default
     TRACE(L"MM_WIM_CLOSE ");

     if (0==dwDataLength) {   //没有数据,长度为0
      return 0;
     }
     waveInUnprepareHeader (hWaveIn, pWaveHdr1, sizeof (WAVEHDR)) ;//取消输入设备和pWaveHdr1的关联
     waveInUnprepareHeader (hWaveIn, pWaveHdr2, sizeof (WAVEHDR)) ;
     
     m_record = FALSE ;
     
     free (pBuffer1) ;
     free (pBuffer2) ;
     
     if (dwDataLength > 0)
     {
      //enable play
     }
     return 0;
    }

    LRESULT ChelloWMDlg::OnMM_WOM_OPEN(UINT wParam, LONG lParam)//开始回放
    {
     TRACE(L"open MM_WOM_OPEN ");
     // Set up header
     
     pWaveHdr1->lpData          = (LPSTR)pSaveBuffer ;
     pWaveHdr1->dwBufferLength  = dwDataLength ;
     pWaveHdr1->dwBytesRecorded = 0 ;
     pWaveHdr1->dwUser          = 0 ;
     pWaveHdr1->dwFlags         = WHDR_BEGINLOOP | WHDR_ENDLOOP ;
     pWaveHdr1->dwLoops         = dwRepetitions ;
     pWaveHdr1->lpNext          = NULL ;
     pWaveHdr1->reserved        = 0 ;
     
     // Prepare and write
     
     waveOutPrepareHeader (hWaveOut, pWaveHdr1, sizeof (WAVEHDR)) ;
     waveOutWrite (hWaveOut, pWaveHdr1, sizeof (WAVEHDR)) ;

     m_play = TRUE ;
      
     return 0;
    }

    LRESULT ChelloWMDlg::OnMM_WOM_DONE(UINT wParam, LONG lParam){ //回放完毕

     TRACE(L"open MM_WOM_DONE ");
     waveOutUnprepareHeader (hWaveOut, pWaveHdr1, sizeof (WAVEHDR)) ;
     waveOutClose (hWaveOut) ;
     
     dwRepetitions = 1 ;
     m_play = FALSE ; 
     
     return  0;
     
    }
    LRESULT ChelloWMDlg::OnMM_WOM_CLOSE(UINT wParam, LONG lParam){ //关闭回放
     TRACE(L"open MM_WOM_CLOSE ");
     dwRepetitions = 1 ;
     m_play = FALSE ; 

     return 0;
    }

  • 相关阅读:
    MapReduce之多个Job串联的案例
    MapReduce之MapJoin案例
    MapReduce之ReduceJoin案例
    PPP协议实现透明传输的2种方法
    Mcal使用记录
    RTA-OS使用记录
    RLM的license管理工具的特点
    对license要求比较严格的软件
    自己的文件上传到npm
    Tomcat服务器安装SSL证书>安装PFX格式证书
  • 原文地址:https://www.cnblogs.com/huty/p/8518460.html
Copyright © 2011-2022 走看看