DurIAN:“用于多模式合成的持续时间通知注意网络”的实现（https

共43个文件

py：32个

txt：3个

md：2个

text-to-speech

speech

需积分: 5 0 下载量 136 浏览量 2021-03-31 19:22:58 上传评论收藏 3.65MB ZIP 举报

温馨提示

榴莲实施“多模式合成的持续时间知悉网络”（）。状态：已发布 1个信息 DurIAN是用于文本到语音合成任务的编码器-解码器体系结构。与Tacotron 2等以前的体系结构不同，它不学习注意力机制，而是考虑音素持续时间信息。因此，当然，要使用此模型，应具有音素化和持续时间对齐的数据集。但是，您可以尝试在LJSpeech数据集（使用CMU dict）上使用预训练的持续时间模型。链接将在下面提供。 2架构细节 DurIAN模型包含两个模块：骨干合成器和持续时间预测器。以下是与论文中描述的Durian最显着的区别：不使用韵律边界标记（未标记），因此不存在“跳过状态”排除韵律边界的隐藏状态样式代码也未使用（相同原因）在CBHG编码器之前删除了Prenet（在实验过程中没有提高准确性）解码器的循环单元一次输出单个频谱图帧骨干合成器和持续时间模型都可以同时训练。

资源推荐

资源详情

资源评论