基于真实语音的文本到语音合成的矢量量化方法.zip资源-CSDN文库

共131个文件

wav：99个

py：23个

txt：3个

版权申诉

190 浏览量 2023-04-04 17:35:07 上传评论 1 收藏 29.35MB ZIP 举报

文本到语音（Text-to-Speech, TTS）合成技术是一种将文字信息转化为可听见的语音输出的技术，广泛应用于智能助手、有声读物、语音导航等领域。本压缩包中的资源聚焦于一种基于真实语音的TTS合成矢量量化方法，这种方法能够实现声音的完美克隆，使合成的语音接近于自然声音，提升用户体验。 1. **矢量量化**：矢量量化是信号处理中的一个关键步骤，特别是在音频编码和压缩中。它将连续的信号转换为离散的表示，通过将信号空间分割成多个小区间，每个小区间用一个代表点（即“矢量”）来近似所有落入该区间的样本。在TTS系统中，矢量量化用于将语音特征如梅尔频率倒谱系数（MFCCs）或线性预测编码（LPC）参数转换为低维度的固定码书，从而降低数据的复杂度，便于存储和处理。 2. **语音合成的基本流程**：TTS系统通常包括文本预处理、发音词典、声学模型和波形生成四个部分。输入的文字经过分词、词性标注等预处理；然后，通过发音词典将文字转换为音素序列；接着，声学模型根据音素序列预测对应的音频特征；波形生成阶段将这些特征转换为实际的音频波形。 3. **声音克隆**：声音克隆是指模仿特定人的语音特征，创建出与原声高度相似的合成语音。这在电影特效、游戏配音、个性化语音助手等领域具有广泛应用。声音克隆的关键在于精确地捕捉和再现原始声音的音色、语调和韵律，这需要高级的建模技术，例如深度学习模型如自回归神经网络（ARNN）、变分自编码器（VAE）或生成对抗网络（GAN）。 4. **深度学习在TTS中的应用**：近年来，深度学习模型如长短期记忆网络（LSTM）和Transformer在语音合成领域取得了显著进展。它们能够学习复杂的非线性关系，生成更加自然和流畅的语音。比如 Tacotron 和 Tacotron 2 是两个著名的端到端的TTS框架，它们使用深度学习模型直接从文本生成波形，减少了传统TTS中的声学建模步骤。 5. **自然度与可理解度**：评估TTS系统性能的重要指标是自然度（听起来是否像人声）和可理解度（能否清晰传达信息）。矢量量化方法与深度学习模型结合，能够在保证合成语音清晰易懂的同时，尽可能地模拟人类语音的细微变化，提高自然度。 6. **实际应用与挑战**：尽管现代TTS技术已经相当成熟，但仍然面临一些挑战，如情感表达、多语言支持、实时性以及隐私保护。特别是声音克隆技术，可能引发身份冒用和隐私侵犯的问题，因此在使用时必须遵守伦理规范，确保数据安全。 7. **未来发展趋势**：随着技术的不断进步，未来的TTS系统将更加智能化，能够适应各种环境和用户需求，包括实时的交互式对话、个性化的声音定制，以及在不同情境下准确表达情感。同时，研究者也将继续探索如何进一步提高合成语音的质量，使其在听觉上难以与真实语音区分。 "基于真实语音的文本到语音合成的矢量量化方法"这一主题涉及了信号处理、语音合成、深度学习等多个核心概念，展示了科技如何让机器模仿人类语音，提供更加自然、逼真的用户体验。随着技术的发展，我们有理由期待更先进的TTS系统将为日常生活带来更多的便利。

资源推荐

资源详情

资源评论

收起资源包目录

基于真实语音的文本到语音合成的矢量量化方法.zip （131个子文件）

speaker_to_text.json 17KB

config.json 805B

index.md 11KB

README.md 4KB

models.py 14KB

train.py 13KB

wildttstransformer.py 12KB

transformers.py 12KB

trainer.py 8KB

meldataset.py 7KB

QuantizeDataset.py 6KB

train.py 5KB

preprocess.py 5KB

transducer.py 5KB

tester.py 4KB

infer.py 4KB

sampler.py 4KB

get_labels.py 3KB

google.py 2KB

eval.py 2KB

fid.py 1KB

utils.py 1KB

speaker_embedding_similarity.py 1KB

vocoder.py 1KB

eval.py 1007B

wer.py 915B

env.py 394B

style.scss 74B

training.txt 10.93MB

validation.txt 33KB

requirements.txt 168B

id10307.wav 823KB

id10293.wav 666KB

id10295.wav 640KB

id10302-2Er-cV85fc4-00020.wav 616KB

id10281.wav 483KB

sentence-36-1.wav 446KB

sentence-22-1.wav 441KB

sentence-6-1.wav 438KB

sentence-38-1.wav 430KB

sentence-37-1.wav 425KB

id10285.wav 418KB

sentence-35-1.wav 406KB

sentence-31-1.wav 399KB

sentence-25-1.wav 397KB

id10292-v6MWr5UAZ94-00002.wav 384KB

id10285-m-uILToQ9ss-00011.wav 370KB

id10273.wav 344KB

sentence-33-1.wav 335KB

sentence-12-1.wav 329KB

id10270-5sJomL_D0_g-00001.wav 319KB

sentence-6-1.wav 317KB

sentence-6-1.wav 312KB

id10306-4E-dEOQQsvo-00004.wav 306KB

sentence-6-1.wav 300KB

sentence-6-1.wav 292KB

sentence-36-1.wav 286KB

sentence-6-1.wav 272KB

sentence-36-1.wav 271KB

sentence-37-1.wav 270KB

sentence-37-1.wav 269KB

sentence-31-1.wav 266KB

sentence-25-1.wav 262KB

sentence-36-1.wav 260KB

sentence-35-1.wav 259KB

sentence-37-1.wav 256KB

sentence-37-1.wav 255KB

sentence-37-1.wav 250KB

sentence-22-1.wav 246KB

sentence-31-1.wav 244KB

sentence-36-1.wav 243KB

sentence-38-1.wav 240KB

sentence-36-1.wav 237KB

sentence-25-1.wav 233KB

sentence-31-1.wav 231KB

共 131 条

# 基于真实语音的文本到语音合成的矢量量化方法 - 基于真实语音的文本到语音合成的矢量量化方法 - 音频样本（每个系统 40 个）可在 [此处](https://cmu.box.com/s/ktbk9pi04e2z1dlyepkkw69xcu9w91dj) 访问。 - 可以在 [此处](https://b04901014.github.io/MQTTS/) 访问快速演示（有些仍然是 TODO）。 - 论文附录在 [此处](https://cmu.box.com/s/7ghw0bgkbqv5e7hu5jsznhlzuo4rexgx)。 ## 设置环境 1.设置conda环境： ``` conda create --name mqtts python=3.9 畅达激活mqtts conda 安装 pytorch==1.10.1 torchvision==0.11.2 torchaudio==0.10.1 cudatoolkit=11.3 -c pytorch -c conda-forge pip install -r requirements.txt ``` （更新）你可能需要创建一个访问令牌来使用 pyannote 的演讲者嵌入，因为他们更新了他们的政策。如果是这种情况，请遵循 [pyannote repo](https://github.com/pyannote/pyannote-audio) 并相应地更改每个 `Inference("pyannote/embedding", window="whole")`。 2. 下载预训练的phonemizer checkpoint ``` wget https://public-asai-dl-models.s3.eu-central-1.amazonaws.com/DeepPhonemizer/en_us_cmudict_forward.pt ``` ## 预处理数据集 1. 从[官方仓库](https://github.com/SpeechColab/GigaSpeech)获取GigaSpeech数据集 2. 安装[FFmpeg](https://ffmpeg.org)，然后 ``` conda install ffmpeg=4.3=hf484d3e_0 conda update ffmpeg ``` 3. Run python script ``` python preprocess.py --giga_speech_dir GIGASPEECH --outputdir datasets ``` ## Train the quantizer and inference 1. Train ``` cd quantizer/ python train.py --input_wavs_dir ../datasets/audios \ --input_training_file ../datasets/training.txt \ --input_validation_file ../datasets/validation.txt \ --checkpoint_path ./checkpoints \ --config config.json ``` 2. Inference to get codes for training the second stage ``` python get_labels.py --input_json ../datasets/train.json \ --input_wav_dir ../datasets/audios \ --output_json ../datasets/train_q.json \ --checkpoint_file ./checkpoints/g_{training_steps} python get_labels.py --input_json ../datasets/dev.json \ --input_wav_dir ../datasets/audios \ --output_json ../datasets/dev_q.json \ --checkpoint_file ./checkpoints/g_{training_steps} ``` ## Train the transformer (below an example for the 100M version) ``` cd .. mkdir ckpt python train.py \ --distributed \ --saving_path ckpt/ \ --sampledir logs/ \ --vocoder_config_path quantizer/checkpoints/config.json \ --vocoder_ckpt_path quantizer/checkpoints/g_{training_steps} \ --datadir datasets/audios \ --metapath datasets/train_q.json \ --val_metapath datasets/dev_q.json \ --use_repetition_token \ --ar_layer 4 \ --ar_ffd_size 1024 \ --ar_hidden_size 256 \ --ar_nheads 4 \ --speaker_embed_dropout 0.05 \ --enc_nlayers 6 \ --dec_nlayers 6 \ --ffd_size 3072 \ --hidden_size 768 \ --nheads 12 \ --batch_size 200 \ --precision bf16 \ --training_step 800000 \ --layer_norm_eps 1e-05 ``` You can view the progress using: ``` tensorboard --logdir logs/ ``` ## Run batched inference You'll have to change `speaker_to_text.json`, it's just an example. ``` mkdir infer_samples CUDA_VISIBLE_DEVICES=0 python infer.py \ --phonemizer_dict_path en_us_cmudict_forward.pt \ --model_path ckpt/last.ckpt \ --config_path ckpt/config.json \ --input_path speaker_to_text.json \ --outputdir infer_samples \ --batch_size {batch_size} \ --top_p 0.8 \ --min_top_k 2 \ --max_output_length {Maximum Output Frames to prevent infinite loop} \ --phone_context_window 3 \ --clean_speech_prior ``` ### Pretrained checkpoints 1. Quantizer (put it under `quantizer/checkpoints/`): [here](https://cmu.box.com/s/966rcxkyjps80p7thu0r6lo2udk1ezdm) 2. Transformer (100M version) (put it under `ckpt/`): [model](https://cmu.box.com/s/xuen9o8wxsmyaz32a65fu25cz92a2jei), [config](https://cmu.box.com/s/hvv06w3yr8mob4csjjaigu5szq2qcjab)

评论收藏

内容反馈

版权申诉