# **CycleGAN-VC2-PyTorch**
[![standard-readme compliant](https://img.shields.io/badge/readme%20style-standard-brightgreen.svg?style=flat-square)](https://github.com/jackaduma/CycleGAN-VC2)
[**中文说明**](./README.md) | [**English**](./README.md)
本项目使用**PyTorch**复现论文:[CycleGAN-VC2: Improved CycleGAN-based Non-parallel Voice Conversion](https://arxiv.org/abs/1904.04631]), 在**音色转换/声音克隆**方面非常优秀的算法模型.
本项目使用CycleGAN实现语音转换(Voice Conversion),即将一个人的语音转换成另一个人的语音,或将男性的语音转换成女性的语音,反之亦然。CycleGAN是一种基于对抗生成网络(GAN)的模型,它可以自动学习如何将两个不同领域的数据进行转换,例如将照片转换成艺术作品。在这个项目中,CycleGAN被用来学习两个不同人的语音之间的映射关系,从而实现语音转换。该项目的实现基于PyTorch框架,同时使用了Mel-spectrogram特征提取和WaveNet声码器来生成转换后的语音。
- [x] 数据集
- [ ] VC
- [x] 中文男性说话人(S0913 from [AISHELL-Speech](https://openslr.org/33/) & [GaoXiaoSong: a Chinese star](https://en.wikipedia.org/wiki/Gao_Xiaosong))
- [x] 用法
- [x] 训练
- [x] Example
- [ ] Demo
------
## **CycleGAN-VC2**
### [**论文项目主页**](http://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/cyclegan-vc2/index.html)
To advance the research on non-parallel VC, we propose CycleGAN-VC2, which is an improved version of CycleGAN-VC incorporating three new techniques: an improved objective (two-step adversarial losses), improved generator (2-1-2D CNN), and improved discriminator (Patch GAN).
![network](http://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/cyclegan-vc2/images/network.png "network")
------
**本项目包括:**
1. [模型代码](model_tf.py) ,复现论文中的算法模型.
2. [语音预处理](preprocess_training.py),对[训练数据](data)进行处理.
3. [训练代码](train.py),训练模型.
4. [Examples of Voice Conversion](converted_sound/) - 模型训练后的转换样本。
------
## **内容列表**
- [**CycleGAN-VC2-PyTorch**](#cyclegan-vc2-pytorch)
- [**CycleGAN-VC2**](#cyclegan-vc2)
- [**论文项目主页**](#论文项目主页)
- [**内容列表**](#内容列表)
- [**依赖**](#依赖)
- [**用法**](#用法)
- [**预处理**](#预处理)
- [**训练**](#训练)
- [**预训练模型**](#预训练模型)
- [**Demo**](#demo)
- [**Star-History**](#star-history)
- [**引用**](#引用)
- [捐赠](#捐赠)
- [**License**](#license)
------
## **依赖**
```bash
pip install -r requirements.txt
```
## **用法**
### **预处理**
```python
python preprocess_training.py
```
自定义参数执行:
```python
python preprocess_training.py --train_A_dir ./data/S0913/ --train_B_dir ./data/gaoxiaosong/ --cache_folder ./cache/
```
### **训练**
```python
python train.py
```
自定义参数执行:
```python
python train.py --logf0s_normalization ./cache/logf0s_normalization.npz --mcep_normalization ./cache/mcep_normalization.npz --coded_sps_A_norm ./cache/coded_sps_A_norm.pickle --coded_sps_B_norm ./cache/coded_sps_B_norm.pickle --model_checkpoint ./model_checkpoint/ --resume_training_at ./model_checkpoint/_CycleGAN_CheckPoint --validation_A_dir ./data/S0913/ --output_A_dir ./converted_sound/S0913 --validation_B_dir ./data/gaoxiaosong/ --output_B_dir ./converted_sound/gaoxiaosong/
```
------
## **预训练模型**
a pretrained model which converted between S0913 and GaoXiaoSong
download from [Google Drive](https://drive.google.com/file/d/1iamizL98NWIPw4pw0nF-7b6eoBJrxEfj/view?usp=sharing) <735MB>
------
## **Demo**
使用预训练模型转换的样本:
**说话人A**: [S0913(./data/S0913/BAC009S0913W0351.wav)](https://drive.google.com/file/d/14zU1mI8QtoBwb8cHkNdZiPmXI6Mj6pVW/view?usp=sharing)
**说话人B**: [GaoXiaoSong(./data/gaoxiaosong/gaoxiaosong_1.wav)](https://drive.google.com/file/d/1s0ip6JwnWmYoWFcEQBwVIIdHJSqPThR3/view?usp=sharing)
**说话人A的语音转换为说话人B的音色**: [Converted from S0913 to GaoXiaoSong (./converted_sound/S0913/BAC009S0913W0351.wav)](https://drive.google.com/file/d/1S4vSNGM-T0RTo_aclxRgIPkUJ7NEqmjU/view?usp=sharing)
------
## **Star-History**
![star-history](https://api.star-history.com/svg?repos=jackaduma/CycleGAN-VC2&type=Date "star-history")
------
## **引用**
1. **CycleGAN-VC2: Improved CycleGAN-based Non-parallel Voice Conversion**. [Paper](https://arxiv.org/abs/1904.04631), [Project](http://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/cyclegan-vc2/index.html)
2. Parallel-Data-Free Voice Conversion Using Cycle-Consistent Adversarial Networks. [Paper](https://arxiv.org/abs/1711.11293), [Project](http://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/cyclegan-vc/)
3. Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. [Paper](https://arxiv.org/abs/1703.10593), [Project](https://junyanz.github.io/CycleGAN/), [Code](https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix)
4. Image-to-Image Translation with Conditional Adversarial Nets. [Paper](https://arxiv.org/abs/1611.07004), [Project](https://phillipi.github.io/pix2pix/), [Code](https://github.com/phillipi/pix2pix)
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
基于对抗网络的深度学习的风格转换以及声音克隆.zip (229个子文件)
Dockerfile 624B
.gitignore 47B
CycleGAN-VC2.iml 284B
README.md 5KB
mcep_normalization.npz 2KB
logf0s_normalization.npz 1KB
coded_sps_B_norm.pickle 29.8MB
coded_sps_A_norm.pickle 28.55MB
train.py 25KB
model_tf.py 19KB
preprocess.py 6KB
preprocess_training.py 4KB
trainingDataset.py 2KB
model_tf.cpython-37.pyc 7KB
preprocess.cpython-37.pyc 5KB
trainingDataset.cpython-37.pyc 2KB
requirements.txt 26B
gaoxiaosong_103.wav 353KB
gaoxiaosong_181.wav 341KB
gaoxiaosong_150.wav 322KB
gaoxiaosong_127.wav 319KB
gaoxiaosong_147.wav 310KB
BAC009S0913W0310.wav 294KB
gaoxiaosong_15.wav 288KB
BAC009S0913W0320.wav 287KB
BAC009S0913W0301.wav 285KB
gaoxiaosong_168.wav 266KB
BAC009S0913W0313.wav 264KB
gaoxiaosong_182.wav 252KB
gaoxiaosong_140.wav 251KB
gaoxiaosong_173.wav 248KB
gaoxiaosong_131.wav 247KB
gaoxiaosong_144.wav 247KB
gaoxiaosong_152.wav 247KB
BAC009S0913W0332.wav 246KB
gaoxiaosong_177.wav 244KB
BAC009S0913W0398.wav 242KB
gaoxiaosong_139.wav 239KB
BAC009S0913W0392.wav 235KB
BAC009S0913W0349.wav 234KB
BAC009S0913W0314.wav 234KB
BAC009S0913W0386.wav 234KB
gaoxiaosong_180.wav 228KB
gaoxiaosong_159.wav 228KB
BAC009S0913W0316.wav 228KB
gaoxiaosong_113.wav 225KB
BAC009S0913W0331.wav 224KB
gaoxiaosong_104.wav 221KB
BAC009S0913W0303.wav 217KB
BAC009S0913W0357.wav 215KB
gaoxiaosong_115.wav 214KB
BAC009S0913W0346.wav 211KB
BAC009S0913W0362.wav 211KB
BAC009S0913W0364.wav 210KB
gaoxiaosong_157.wav 210KB
gaoxiaosong_108.wav 208KB
gaoxiaosong_112.wav 206KB
BAC009S0913W0374.wav 206KB
BAC009S0913W0326.wav 205KB
BAC009S0913W0300.wav 202KB
BAC009S0913W0304.wav 201KB
BAC009S0913W0354.wav 200KB
BAC009S0913W0318.wav 199KB
BAC009S0913W0322.wav 197KB
BAC009S0913W0394.wav 195KB
gaoxiaosong_179.wav 194KB
gaoxiaosong_196.wav 194KB
BAC009S0913W0307.wav 194KB
BAC009S0913W0390.wav 191KB
gaoxiaosong_137.wav 191KB
BAC009S0913W0395.wav 189KB
BAC009S0913W0367.wav 186KB
gaoxiaosong_19.wav 185KB
BAC009S0913W0312.wav 184KB
BAC009S0913W0308.wav 183KB
BAC009S0913W0361.wav 183KB
gaoxiaosong_145.wav 182KB
BAC009S0913W0339.wav 182KB
gaoxiaosong_154.wav 181KB
BAC009S0913W0391.wav 179KB
gaoxiaosong_193.wav 178KB
gaoxiaosong_120.wav 178KB
BAC009S0913W0338.wav 178KB
gaoxiaosong_163.wav 178KB
gaoxiaosong_16.wav 178KB
BAC009S0913W0327.wav 178KB
BAC009S0913W0319.wav 177KB
BAC009S0913W0382.wav 175KB
gaoxiaosong_17.wav 173KB
BAC009S0913W0373.wav 173KB
BAC009S0913W0336.wav 173KB
gaoxiaosong_192.wav 172KB
BAC009S0913W0305.wav 172KB
BAC009S0913W0348.wav 172KB
gaoxiaosong_118.wav 172KB
gaoxiaosong_188.wav 172KB
BAC009S0913W0372.wav 171KB
BAC009S0913W0302.wav 170KB
gaoxiaosong_155.wav 169KB
BAC009S0913W0359.wav 168KB
共 229 条
- 1
- 2
- 3
资源评论
小码蚁.
- 粉丝: 2517
- 资源: 3976
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功