# WaveRNN
##### (Update: Vanilla Tacotron One TTS system just implemented - more coming soon!)
![Tacotron with WaveRNN diagrams](assets/tacotron_wavernn.png)
Pytorch implementation of Deepmind's WaveRNN model from [Efficient Neural Audio Synthesis](https://arxiv.org/abs/1802.08435v1)
# Installation
Ensure you have:
* Python >= 3.6
* [Pytorch 1 with CUDA](https://pytorch.org/)
Then install the rest with pip:
> pip install -r requirements.txt
# How to Use
### Quick Start
If you want to use TTS functionality immediately you can simply use:
> python quick_start.py
This will generate everything in the default sentences.txt file and output to a new 'quick_start' folder where you can playback the wav files and take a look at the attention plots
You can also use that script to generate custom tts sentences and/or use '-u' to generate unbatched (better audio quality):
> python quick_start.py -u --input_text "What will happen if I run this command?'
### Training your own Models
![Attenion and Mel Training GIF](assets/training_viz.gif)
Download the [LJSpeech](https://keithito.com/LJ-Speech-Dataset/) Dataset.
Edit **hparams.py**, point **wav_path** to your dataset and run:
> python preprocess.py
or use preprocess.py --path to point directly to the dataset
___
Here's my recommendation on what order to run things:
1 - Train Tacotron with:
> python train_tacotron.py
2 - You can leave that finish training or at any point you can use:
> python train_tacotron.py --force_gta
this will force tactron to create a GTA dataset even if it hasn't finish training.
3 - Train WaveRNN with:
> python train_wavernn.py --gta
NB: You can always just run train_wavernn.py without --gta if you're not interested in TTS.
4 - Generate Sentences with both models using:
> python gen_tacotron.py
this will generate default sentences. If you want generate custom sentences you can use
> python gen_tacotron.py --input_text "this is whatever you want it to be"
And finally, you can always use --help on any of those scripts to see what options are available :)
# Samples
[Can be found here.](https://fatchord.github.io/model_outputs/)
# Pretrained Models
Currently there are two pretrained models available in the /pretrained/ folder':
Both are trained on LJSpeech
* WaveRNN (Mixture of Logistics output) trained to 800k steps
* Tacotron trained to 180k steps
____
### References
* [Efficient Neural Audio Synthesis](https://arxiv.org/abs/1802.08435v1)
* [Tacotron: Towards End-to-End Speech Synthesis](https://arxiv.org/abs/1703.10135)
* [Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions](https://arxiv.org/abs/1712.05884)
### Acknowlegements
* [https://github.com/keithito/tacotron](https://github.com/keithito/tacotron)
* [https://github.com/r9y9/wavenet_vocoder](https://github.com/r9y9/wavenet_vocoder)
* Special thanks to github users [G-Wang](https://github.com/G-Wang), [geneing](https://github.com/geneing) & [erogol](https://github.com/erogol)
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【目标受众】: 本项目适合IT相关专业各种计算机技术的源代码和项目资料,如计科、人工智能、通信工程、自动化和电子信息等的在校学生、老师或者企业员工下载使用。 也适合小白学习进阶,可以用作比赛项目、可以进行项目复刻去参加同赛道比赛。 【资源内容】: 源码与竞赛资料:教育部认可的大学生竞赛备赛资料代码、源码、竞赛总结。 功能与质量保证:这个资源库是一个宝贵的学习平台,有助于他们深入了解计算机技术的原理和应用。这些源码经过测试和验证,可以直接运行,方便学生快速上手并开始实践。 【应用场景】: 竞赛准备:适用于各种教育部认可的竞赛,如全国电子设计大赛、全国大学生智能汽车竞赛等,他们可以借助这些资料了解竞赛的规则、要求和技巧。 学习与项目开发:可以用作毕设、课设、作业和竞赛项目的开发基础,可以使用这些源码作为项目开发的基础,快速构建出具有竞争力的作品。 【互动与交流】: 资料鼓励下载和使用这些资源,并欢迎学习者进行沟通交流、互相学习、共同进步。这种互动式的学习方式有助于形成良好的学习氛围,促进知识的共享和传播,为计算机相关专业的学习者提供了一个全面的学习和发展平台。
资源推荐
资源详情
资源评论
收起资源包目录
第十四届中国研究生电子设计竞赛——华为命题-----语音合成.zip (68个子文件)
资料总结
Tacotron+WaveRNN
preprocess.py 2KB
assets
training_viz.gif 8.18MB
WaveRNN.png 13KB
wavernn_alt_model_hrz2.png 195KB
tacotron_wavernn.png 198KB
LICENSE.txt 1KB
quick_start.py 4KB
hparams.py 4KB
utils
display.py 3KB
distribution.py 5KB
dataset.py 6KB
files.py 199B
paths.py 2KB
text
__init__.py 2KB
LICENSE 1KB
numbers.py 2KB
cleaners.py 2KB
cmudict.py 2KB
symbols.py 720B
recipes.py 336B
__pycache__
symbols.cpython-37.pyc 576B
cleaners.cpython-37.pyc 2KB
numbers.cpython-37.pyc 2KB
recipes.cpython-37.pyc 524B
cmudict.cpython-37.pyc 2KB
__init__.cpython-37.pyc 3KB
__pycache__
display.cpython-37.pyc 3KB
paths.cpython-37.pyc 1KB
files.cpython-37.pyc 379B
distribution.cpython-37.pyc 3KB
dsp.cpython-37.pyc 4KB
__init__.cpython-37.pyc 132B
dsp.py 2KB
gen_tacotron.py 5KB
sentences.txt 442B
train_tacotron.py 5KB
quick_start
quick_start1.wav 160KB
quick_start.wav 225KB
quick_start.wav.png 12KB
quick_start1.wav.png 12KB
train_wavernn.py 4KB
requirements.txt 62B
windowsGUI.py 4KB
models
fatchord_version.py 14KB
tacotron.py 16KB
deepmind_version.py 7KB
__pycache__
tacotron.cpython-37.pyc 13KB
fatchord_version.cpython-37.pyc 13KB
PlayAudio_RNN.py 338B
__pycache__
PlayAudio_RNN.cpython-37.pyc 553B
APP_RNN.cpython-37.pyc 2KB
hparams.cpython-37.pyc 2KB
README.md 3KB
gen_wavernn.py 4KB
电脑端界面.jpg 296KB
第十四届研电赛企业命题获奖名单7-23.pdf 155KB
build_csv.py 661B
Tacotron.zip 14.63MB
手机APP1.jpg 335KB
手机APP3.jpg 118KB
作品简介.docx 750KB
APP.png 51KB
第十四届中国研究生电赛_奔跑吧小白.docx 6.79MB
门型展架海报.jpg 5.55MB
手机APP2.jpg 677KB
第十四届中国研究生电赛_奔跑吧小白.pdf 1.96MB
README.md 891B
决赛-华为命题-南京航空航天大学.gif 157KB
共 68 条
- 1
资源评论
妄北y
- 粉丝: 1w+
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 论文(最终)_20240430235101.pdf
- 基于python编写的Keras深度学习框架开发,利用卷积神经网络CNN,快速识别图片并进行分类
- 最全空间计量实证方法(空间杜宾模型和检验以及结果解释文档).txt
- 5uonly.apk
- 蓝桥杯Python组的历年真题
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 前端开发技术实验报告:内含4四实验&实验报告
- Highlight Plus v20.0.1
- 林周瑜-论文.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功