- noise generalization:
提高降噪模型对噪声的泛化性,主要还是通过增加噪声数据的多样性(可以收集不同噪声数据/或对噪声数据做perturbation)
噪声数据集:
- sound-ideas 包含各种噪声类型,但是要收费 https://www.sound-ideas.com/
- freesound 做freesound的声音分类包含很多唤醒噪声: https://zenodo.org/record/2552860#.XpUoo1MzZTa
- Non speech noise 100条non-speech噪声数据 http://web.cse.ohio-state.edu/pnl/corpus/HuNonspeech/HuCorpus.html
- Urben sound 类似freesound https://urbansounddataset.weebly.com/urbansound.html
- audiosets https://research.google.com/audioset/ontology/noise_1.html
- Speaker generation:
Speaker generation 和模型的context 关系密切。DNN model 使用更多speaker数据训练时,效果并没有提升,但是像rnn 这种网络在speaker 数量增多时,效果提升比较明显(因为dnn 模型一般设置前后context 比较小,但rnn 这种模型结构就有long-term context,也可以利用tcn 这样的网络结构增加context 的大小)。