# 基于真实语音的文本到语音合成的矢量量化方法
- 基于真实语音的文本到语音合成的矢量量化方法
- 音频样本(每个系统 40 个)可在 [此处](https://cmu.box.com/s/ktbk9pi04e2z1dlyepkkw69xcu9w91dj) 访问。
- 可以在 [此处](https://b04901014.github.io/MQTTS/) 访问快速演示(有些仍然是 TODO)。
- 论文附录在 [此处](https://cmu.box.com/s/7ghw0bgkbqv5e7hu5jsznhlzuo4rexgx)。
## 设置环境
1.设置conda环境:
```
conda create --name mqtts python=3.9
畅达激活mqtts
conda 安装 pytorch==1.10.1 torchvision==0.11.2 torchaudio==0.10.1 cudatoolkit=11.3 -c pytorch -c conda-forge
pip install -r requirements.txt
```
(更新)你可能需要创建一个访问令牌来使用 pyannote 的演讲者嵌入,因为他们更新了他们的政策。
如果是这种情况,请遵循 [pyannote repo](https://github.com/pyannote/pyannote-audio) 并相应地更改每个 `Inference("pyannote/embedding", window="whole")`。
2. 下载预训练的phonemizer checkpoint
```
wget https://public-asai-dl-models.s3.eu-central-1.amazonaws.com/DeepPhonemizer/en_us_cmudict_forward.pt
```
## 预处理数据集
1. 从[官方仓库](https://github.com/SpeechColab/GigaSpeech)获取GigaSpeech数据集
2. 安装[FFmpeg](https://ffmpeg.org),然后
```
conda install ffmpeg=4.3=hf484d3e_0
conda update ffmpeg
```
3. Run python script
```
python preprocess.py --giga_speech_dir GIGASPEECH --outputdir datasets
```
## Train the quantizer and inference
1. Train
```
cd quantizer/
python train.py --input_wavs_dir ../datasets/audios \
--input_training_file ../datasets/training.txt \
--input_validation_file ../datasets/validation.txt \
--checkpoint_path ./checkpoints \
--config config.json
```
2. Inference to get codes for training the second stage
```
python get_labels.py --input_json ../datasets/train.json \
--input_wav_dir ../datasets/audios \
--output_json ../datasets/train_q.json \
--checkpoint_file ./checkpoints/g_{training_steps}
python get_labels.py --input_json ../datasets/dev.json \
--input_wav_dir ../datasets/audios \
--output_json ../datasets/dev_q.json \
--checkpoint_file ./checkpoints/g_{training_steps}
```
## Train the transformer (below an example for the 100M version)
```
cd ..
mkdir ckpt
python train.py \
--distributed \
--saving_path ckpt/ \
--sampledir logs/ \
--vocoder_config_path quantizer/checkpoints/config.json \
--vocoder_ckpt_path quantizer/checkpoints/g_{training_steps} \
--datadir datasets/audios \
--metapath datasets/train_q.json \
--val_metapath datasets/dev_q.json \
--use_repetition_token \
--ar_layer 4 \
--ar_ffd_size 1024 \
--ar_hidden_size 256 \
--ar_nheads 4 \
--speaker_embed_dropout 0.05 \
--enc_nlayers 6 \
--dec_nlayers 6 \
--ffd_size 3072 \
--hidden_size 768 \
--nheads 12 \
--batch_size 200 \
--precision bf16 \
--training_step 800000 \
--layer_norm_eps 1e-05
```
You can view the progress using:
```
tensorboard --logdir logs/
```
## Run batched inference
You'll have to change `speaker_to_text.json`, it's just an example.
```
mkdir infer_samples
CUDA_VISIBLE_DEVICES=0 python infer.py \
--phonemizer_dict_path en_us_cmudict_forward.pt \
--model_path ckpt/last.ckpt \
--config_path ckpt/config.json \
--input_path speaker_to_text.json \
--outputdir infer_samples \
--batch_size {batch_size} \
--top_p 0.8 \
--min_top_k 2 \
--max_output_length {Maximum Output Frames to prevent infinite loop} \
--phone_context_window 3 \
--clean_speech_prior
```
### Pretrained checkpoints
1. Quantizer (put it under `quantizer/checkpoints/`): [here](https://cmu.box.com/s/966rcxkyjps80p7thu0r6lo2udk1ezdm)
2. Transformer (100M version) (put it under `ckpt/`): [model](https://cmu.box.com/s/xuen9o8wxsmyaz32a65fu25cz92a2jei), [config](https://cmu.box.com/s/hvv06w3yr8mob4csjjaigu5szq2qcjab)
没有合适的资源?快使用搜索试试~ 我知道了~
基于真实语音的文本到语音合成的矢量量化方法.zip
共131个文件
wav:99个
py:23个
txt:3个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 39 浏览量
2023-04-04
17:35:07
上传
评论 1
收藏 29.35MB ZIP 举报
温馨提示
可以实现声音的完美克隆,语音合成逼近自然声音
资源推荐
资源详情
资源评论
收起资源包目录
基于真实语音的文本到语音合成的矢量量化方法.zip (131个子文件)
speaker_to_text.json 17KB
config.json 805B
index.md 11KB
README.md 4KB
models.py 14KB
train.py 13KB
wildttstransformer.py 12KB
transformers.py 12KB
trainer.py 8KB
meldataset.py 7KB
QuantizeDataset.py 6KB
train.py 5KB
preprocess.py 5KB
transducer.py 5KB
tester.py 4KB
infer.py 4KB
sampler.py 4KB
get_labels.py 3KB
google.py 2KB
eval.py 2KB
fid.py 1KB
utils.py 1KB
speaker_embedding_similarity.py 1KB
vocoder.py 1KB
eval.py 1007B
wer.py 915B
env.py 394B
style.scss 74B
training.txt 10.93MB
validation.txt 33KB
requirements.txt 168B
id10307.wav 823KB
id10293.wav 666KB
id10295.wav 640KB
id10302-2Er-cV85fc4-00020.wav 616KB
id10302-2Er-cV85fc4-00020.wav 616KB
id10302-2Er-cV85fc4-00020.wav 616KB
id10302-2Er-cV85fc4-00020.wav 616KB
id10302-2Er-cV85fc4-00020.wav 616KB
id10302-2Er-cV85fc4-00020.wav 616KB
id10281.wav 483KB
sentence-36-1.wav 446KB
sentence-22-1.wav 441KB
sentence-6-1.wav 438KB
sentence-38-1.wav 430KB
sentence-37-1.wav 425KB
id10285.wav 418KB
sentence-35-1.wav 406KB
sentence-31-1.wav 399KB
sentence-25-1.wav 397KB
id10292-v6MWr5UAZ94-00002.wav 384KB
id10292-v6MWr5UAZ94-00002.wav 384KB
id10292-v6MWr5UAZ94-00002.wav 384KB
id10292-v6MWr5UAZ94-00002.wav 384KB
id10292-v6MWr5UAZ94-00002.wav 384KB
id10292-v6MWr5UAZ94-00002.wav 384KB
id10285-m-uILToQ9ss-00011.wav 370KB
id10285-m-uILToQ9ss-00011.wav 370KB
id10285-m-uILToQ9ss-00011.wav 370KB
id10285-m-uILToQ9ss-00011.wav 370KB
id10285-m-uILToQ9ss-00011.wav 370KB
id10285-m-uILToQ9ss-00011.wav 370KB
id10273.wav 344KB
sentence-33-1.wav 335KB
sentence-12-1.wav 329KB
id10270-5sJomL_D0_g-00001.wav 319KB
id10270-5sJomL_D0_g-00001.wav 319KB
id10270-5sJomL_D0_g-00001.wav 319KB
id10270-5sJomL_D0_g-00001.wav 319KB
id10270-5sJomL_D0_g-00001.wav 319KB
id10270-5sJomL_D0_g-00001.wav 319KB
sentence-6-1.wav 317KB
sentence-6-1.wav 312KB
id10306-4E-dEOQQsvo-00004.wav 306KB
id10306-4E-dEOQQsvo-00004.wav 306KB
id10306-4E-dEOQQsvo-00004.wav 306KB
id10306-4E-dEOQQsvo-00004.wav 306KB
id10306-4E-dEOQQsvo-00004.wav 306KB
id10306-4E-dEOQQsvo-00004.wav 306KB
sentence-6-1.wav 300KB
sentence-6-1.wav 292KB
sentence-36-1.wav 286KB
sentence-6-1.wav 272KB
sentence-36-1.wav 271KB
sentence-37-1.wav 270KB
sentence-37-1.wav 269KB
sentence-31-1.wav 266KB
sentence-25-1.wav 262KB
sentence-36-1.wav 260KB
sentence-35-1.wav 259KB
sentence-37-1.wav 256KB
sentence-37-1.wav 255KB
sentence-37-1.wav 250KB
sentence-22-1.wav 246KB
sentence-31-1.wav 244KB
sentence-36-1.wav 243KB
sentence-38-1.wav 240KB
sentence-36-1.wav 237KB
sentence-25-1.wav 233KB
sentence-31-1.wav 231KB
共 131 条
- 1
- 2
资源评论
小码蚁.
- 粉丝: 2525
- 资源: 4057
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 写入三菱plcD位寄存器的值
- 确保你的操作系统符合Docker的要求 Docker支持的操作系统包括Ubuntu、Debian、CentOS、Fedora和m
- 确保你的操作系统符合Docker的要求 Docker支持的操作系统包括Ubuntu、Debian、CentOS、Fedora和m
- HDMI 虚拟软件欺骗器
- 确保你的操作系统符合Docker的要求 Docker支持的操作系统包括Ubuntu、Debian、CentOS、Fedora和m
- 读取三菱PLC D位寄存器
- HDMI edid 编辑工具
- 要在你的计算机上安装Docker,你可以按照以下步骤进行:
- 要在你的计算机上安装Docker,你可以按照以下步骤进行:
- html加JavaScript进行表单验证
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功