DLJeju2018CodeRepoASR:关于使用GAN进行语音合成以提高ASR问题的语音识别准确性的工作的详细信息

共18个文件

xml：5个

md：4个

png：3个

machine-learning

deep-learning

generative-adversarial-network

需积分: 9 3 下载量 6 浏览量 2021-04-27 18:33:28 上传评论收藏 1.77MB ZIP 举报

温馨提示

使用半监督GAN的合成语音输出来提高语音识别精度在这个项目中，我们使用深度学习通过WaveGAN和SpecGAN（）来合成语音/音频。这样合成的原始音频被用于改善基线系统。入门大多数深度学习技术都需要大量数据来训练系统。但是大规模收集数据是一个瓶颈。不仅必须拥有数据，而且还应该能够涵盖现实世界中发生的各种情况。假设有一种方法可以从现有数据（标记的和未标记的）中生成新数据。在本文中，我将探讨语音领域的可能性。最近，语音识别方面的许多工作都集中在语音合成上。自Goodfellow，Ian等人（2014）引入GAN以来，已经涌现出大量论文，后来成功地将其成功用于Images的样式转换中。从那时起，图像的样式转换就开始了。 Recenlty WaveGAN和SpecGAN被圣地亚哥大学的研究人员用来生成有意义的音频数据（）拟议制度用法先决条件 Tensorflow> =

资源推荐

资源详情

资源评论