<div class="title" align=center>
<h1>Dub Genius</h1>
<div>基于 GPT-SoVITS 的视频剪辑快捷配音工具</div>
<br/>
<p>
<img src="https://img.shields.io/github/license/2DIPW/dub_genius">
<img src="https://img.shields.io/badge/python-3.9-blue">
<img src="https://img.shields.io/badge/pyqt-6-g">
<img src="https://img.shields.io/github/stars/2DIPW/dub_genius?style=social">
</div>
## 🚩 简介
本项目是一个拥有 GUI 悬浮窗界面的 GPT-SoVITS 推理程序,可以通过模拟操作系统的文件拖拽信号,将合成的语音直接拖拽至视频剪辑软件(如 Adobe Premiere)的时间轴,更加方便地实现视频的配音。
推理核心源码基于 [RVC-Boss/GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS) 修改,GUI 界面基于 PySide6 实现,exe可执行文件由 [PyStand](https://github.com/skywind3000/PyStand) 编译。
## 💻 截图
![Screenshot](img/screenshot.png)
## 📥 部署
可以直接下载带有 exe 可执行文件的整合包,也可以自行部署依赖环境并从命令行运行。
### 整合包
整合包自带全部依赖和预训练模型,以及一个 Python 3.9.13 的嵌入式版本,可通过 exe 可执行文件独立运行。
||PyTorch版本|大小|下载地址|
|-|-|-|-|
|CPU推理版本|2.2.1|989 MB|[OneDrive](https://1drv.ms/u/s!ApF_M_PJgMjabK4tbMUTw5nFt-g?e=C3O0JN) \| [百度网盘](https://pan.baidu.com/s/1sKlushysdxq1ce-IBHcJaw?pwd=nqwm)|
|GPU推理版本|2.2.1+cu118|2.18 GB|[OneDrive](https://1drv.ms/u/s!ApF_M_PJgMjabWCA4_s3fwxwi7M?e=nObvOo) \| [百度网盘](https://pan.baidu.com/s/1pR1gNF1TmIl_5kASQzEnJQ?pwd=nbqa)|
### 自行部署
#### 克隆
```shell
git clone https://github.com/2DIPW/dub_genius.git
cd dub_genius
```
#### 安装依赖
如果有现成的为 [RVC-Boss/GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS) 配置的环境,为了节省空间,可以在其基础上安装 PySide6。
```shell
pip install pyside6
```
否则,请安装全部依赖
```shell
pip install -r requirements.txt
```
#### 配置 GPU 加速(可选)
安装 CUDA 版本的 PyTorch
```shell
pip install torch --index-url https://download.pytorch.org/whl/cu118
```
#### 配置预训练模型
本项目需要 [RVC-Boss/GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS) 中的`GPT_SoVITS/pretrained_models` 目录下的 `chinese-hubert-base`和`chinese-roberta-wwm-ext-large`两个预训练模型,置于`pretrained`目录下。
#### 运行
```shell
python dub_genius.py
```
## 🗝 使用方法
1. **添加模型组:** 首次使用自动进入模型组管理对话框,单击`添加`,进入编辑模型组对话框
* 填写模型组名,并选择 GPT 和 SoVITS 模型文件。
* 单击`添加`以添加参考音频,`别名`和`参考文本`默认值取自文件名,可以通过双击进入编辑状态来修改。单击`文件路径`可以重新指定该项的文件路径。`语言`默认为中文,如需批量修改语言,选中它们所在的行,并通过`批量修改语言为`来修改。
2. **指定保存路径:** 单击保存路径文本框旁的`...`,设置满意的合成结果将会保存到何处,通常设置为视频剪辑项目所在的位置。
3. **输入文本并合成语音:** 单击`合成`,合成完毕后会自动播放试听,若满意该条合成结果,单击`保存`即可将其保存至设置的路径,同时会将该条目添加至合成结果列表。
4. **拖拽至时间轴:** 从合成结果列表中将所需的语音拖拽至视频剪辑软件时间轴,即可完成配音的添加。如还需添加字幕,**双击**合成结果列表的条目即可将该项所对应的文本复制到剪贴板中。
## ⚖ 开源声明
本项目基于 [RVC-Boss/GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS) 修改,并以 [GNU General Public License v3.0](https://github.com/2DIPW/GPT-SoVITS-RefAudio-Tester/blob/master/LICENSE) 开源
本项目的诞生离不开这些优秀的开源项目:
* [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS):LGPL
* [PySide 6](https://wiki.qt.io/Qt_for_Python):LGPL
* [PyStand](https://github.com/skywind3000/PyStand):MIT License
* [FFmpeg](https://ffmpeg.org/):LGPL
本项目整合包基于 LGPL 2.1 协议包含一份 FFmpeg 的可执行文件
本项目使用了由 [Rafiico Creative Studio Co., Ltd. ](https://www.iconfinder.com/rafiico-creative) 基于 CC BY 3.0 DEED 协议共享的图像素材
*世界因开源更精彩*
没有合适的资源?快使用搜索试试~ 我知道了~
基于GPT-SoVITS的视频剪辑快捷配音工具.zip
共85个文件
py:64个
ui:4个
png:4个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 123 浏览量
2024-05-11
21:05:47
上传
评论
收藏 48.72MB ZIP 举报
温馨提示
基于GPT-SoVITS的视频剪辑快捷配音工具 GPT, 通常指的是“Generative Pre-trained Transformer”(生成式预训练转换器),是一个在自然语言处理(NLP)领域非常流行的深度学习模型架构。GPT模型由OpenAI公司开发,并在多个NLP任务上取得了显著的性能提升。 GPT模型的核心是一个多层Transformer解码器结构,它通过在海量的文本数据上进行预训练来学习语言的规律。这种预训练方式使得GPT模型能够捕捉到丰富的上下文信息,并生成流畅、自然的文本。 GPT模型的训练过程可以分为两个阶段: 预训练阶段:在这个阶段,模型会接触到大量的文本数据,并通过无监督学习的方式学习语言的结构和规律。具体来说,模型会尝试预测文本序列中的下一个词或短语,从而学习到语言的语法、语义和上下文信息。 微调阶段(也称为下游任务训练):在预训练完成后,模型会被应用到具体的NLP任务中,如文本分类、机器翻译、问答系统等。在这个阶段,模型会使用有标签的数据进行微调,以适应特定任务的需求。通过微调,模型能够学习到与任务相关的特定知识,并进一步提高在该任务上的性能。 GPT模型的优势在于其强大的生成能力和对上下文信息的捕捉能力。这使得GPT模型在自然语言生成、文本摘要、对话系统等领域具有广泛的应用前景。同时,GPT模型也面临一些挑战,如计算资源消耗大、训练时间长等问题。为了解决这些问题,研究人员不断提出新的优化方法和扩展模型架构,如GPT-2、GPT-3等,以进一步提高模型的性能和效率。
资源推荐
资源详情
资源评论
收起资源包目录
基于GPT-SoVITS的视频剪辑快捷配音工具.zip (85个子文件)
content
utils.py 11KB
ffmpeg 47.76MB
AR
__init__.py 0B
data
__init__.py 0B
dataset.py 12KB
bucket_sampler.py 6KB
data_module.py 3KB
modules
__init__.py 0B
embedding.py 3KB
activation.py 20KB
optim.py 26KB
lr_schedulers.py 3KB
scaling.py 12KB
transformer.py 12KB
patched_mha_with_cache.py 19KB
utils
__init__.py 1KB
initialize.py 1KB
io.py 929B
text_processing
__init__.py 0B
phonemizer.py 3KB
symbols.py 673B
models
utils.py 9KB
__init__.py 0B
t2s_model.py 16KB
t2s_lightning_module.py 5KB
controller
__init__.py 0B
frmAbout.py 671B
frmMain.py 15KB
frmEditModelSet.py 8KB
frmModelSetsList.py 5KB
config.py 1KB
img
screenshot.png 78KB
text
__init__.py 438B
opencpop-strict.txt 4KB
cleaner.py 2KB
english.py 5KB
engdict-hot.rep 35B
tone_sandhi.py 24KB
zh_normalization
__init__.py 664B
phonecode.py 2KB
chronology.py 4KB
num.py 7KB
quantifier.py 2KB
text_normlization.py 7KB
constants.py 2KB
README.md 1KB
char_convert.py 65KB
cmudict-fast.rep 3.45MB
japanese.py 6KB
cmudict.rep 3.79MB
symbols.py 4KB
chinese.py 5KB
engdict_cache.pickle 6.23MB
inference_core.py 16KB
pretrained
.gitignore 13B
module
__init__.py 0B
attentions.py 23KB
cnhubert.py 3KB
quantize.py 4KB
core_vq.py 13KB
models.py 32KB
transforms.py 7KB
mel_processing.py 4KB
commons.py 6KB
modules.py 28KB
mrte_model.py 6KB
requirements.txt 212B
ffmpeg.exe 50.47MB
ui
frmEditModelSet.ui 7KB
resource.qrc 192B
__init__.py 0B
resource_rc.py 1.69MB
frmAbout.py 6KB
frmMain.py 15KB
image
qt_logo.png 7KB
logo_128.png 6KB
splash.png 300KB
icon.ico 204KB
frmModelSetsList.ui 3KB
frmAbout.ui 6KB
frmEditModelSet.py 9KB
frmModelSetsList.py 5KB
frmMain.ui 13KB
README.md 4KB
dub_genius.py 221B
共 85 条
- 1
资源评论
生瓜蛋子
- 粉丝: 3811
- 资源: 4660
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 人脸检测-使用OpenCV实现的动漫+漫画人脸检测算法-附项目源码-优质项目实战.zip
- 道路贴图,材质材料免费
- 58234458141025
- 人脸检测-基于OpenCV+Node.js+WebSockets实现的实时人脸检测应用-附项目源码-优质项目实战.zip
- 一些常见的MySQL死锁案例-mysql-deadlocks-master(源代码+案例+图解说明)
- UE4动画烘焙器-ue4.27
- 新建文件夹.zip
- 1103a2a791bbd96ea98021062e327495b1c422e32fb27e0c2d6404b1bd74b692.gif
- 同城相亲交友php小程序
- stm32f103实现的按键FIFO
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功