基于AI大模型实现一键生成高清短视频资源-CSDN文库

共146个文件

py：29个

mp3：29个

md：27个

人工智能

160 浏览量 2024-06-19 15:41:03 上传评论收藏 140.38MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

基于AI大模型实现一键生成高清短视频（146个子文件）

webui.bat 240B

Dockerfile 1KB

.dockerignore 260B

.gitignore 432B

index.html 689B

webui-en.jpg 384KB

webui copy.jpg 340KB

webui.jpg 340KB

reccloud.cn.jpg 294KB

reccloud.com.jpg 255KB

api.jpg 252KB

picwish.jpg 178KB

douyin.jpg 173KB

wechat-04.jpg 166KB

shipinghao.jpg 100KB

wechat-group.jpg 91KB

vi.json 5KB

de.json 5KB

zh.json 5KB

en.json 5KB

package.json 743B

tsconfig.json 383B

tsconfig.config.json 263B

LICENSE 1KB

README.md 10KB

README.md 4KB

faq.md 4KB

README.md 3KB

faq.md 3KB

features.md 2KB

CHANGELOG.md 2KB

features.md 2KB

video-demonstration.md 2KB

subtitle-generation.md 1KB

video-demonstration.md 1KB

README.md 657B

subtitle-generation.md 650B

README.md 579B

special-thanks.md 417B

thanks-for-sponsoring.md 316B

reference-project.md 240B

background-music.md 233B

speech-synthesis.md 215B

background-music.md 202B

feedback.md 192B

reference-project.md 184B

feedback.md 180B

subtitle-font.md 153B

subtitle-font.md 136B

configuration-requirements.md 135B

speech-synthesis.md 105B

output004.mp3 2.16MB

output015.mp3 2.15MB

output000.mp3 2.15MB

output019.mp3 2.12MB

output008.mp3 2.09MB

output023.mp3 2.07MB

output011.mp3 2.03MB

output012.mp3 2.03MB

output027.mp3 2MB

output001.mp3 1.99MB

output022.mp3 1.97MB

output016.mp3 1.93MB

output007.mp3 1.93MB

output018.mp3 1.89MB

output020.mp3 1.89MB

output005.mp3 1.88MB

output009.mp3 1.85MB

output003.mp3 1.85MB

output024.mp3 1.84MB

output014.mp3 1.81MB

output010.mp3 1.81MB

output017.mp3 1.81MB

output013.mp3 1.8MB

output006.mp3 1.8MB

output021.mp3 1.8MB

output028.mp3 1.79MB

output002.mp3 1.79MB

output025.mp3 1.78MB

output029.mp3 1.3MB

logo.png 1.64MB

hero.png 1.64MB

android-chrome-512x512.png 29KB

android-chrome-192x192.png 9KB

apple-touch-icon.png 5KB

apple-touch-icon-180x180.png 5KB

mstile-150x150.png 4KB

favicon-32x32.png 4KB

apple-touch-icon-152x152.png 4KB

apple-touch-icon-120x120.png 3KB

apple-touch-icon-76x76.png 2KB

favicon-16x16.png 2KB

apple-touch-icon-60x60.png 1KB

msapplication-icon-144x144.png 1KB

共 146 条

自动生成视频 <br> 只需提供一个视频 <b>主题</b> 或 <b>关键词</b> ，就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐，然后合成一个高清的短视频。 <br> <h4>Web界面</h4> ![](docs/webui.jpg) <h4>API界面</h4> ![](docs/api.jpg) </div> ## 特别感谢由于该项目的 **部署** 和 **使用**，对于一些小白用户来说，还是 **有一定的门槛**，在此特别感谢 **录咖（AI智能多媒体服务平台）** 网站基于该项目，提供的免费`AI视频生成器`服务，可以不用部署，直接在线使用，非常方便。 - 中文版：https://reccloud.cn - 英文版：https://reccloud.com ![](docs/reccloud.cn.jpg) ## 感谢赞助感谢佐糖 https://picwish.cn 对该项目的支持和赞助，使得该项目能够持续的更新和维护。佐糖专注于**图像处理领域**，提供丰富的**图像处理工具**，将复杂操作极致简化，真正实现让图像处理更简单。 ![picwish.jpg](docs/picwish.jpg) ## 功能特性 - [x] 完整的 **MVC架构**，代码 **结构清晰**，易于维护，支持 `API` 和 `Web界面` - [x] 支持视频文案 **AI自动生成**，也可以**自定义文案** - [x] 支持多种 **高清视频** 尺寸 - [x] 竖屏 9:16，`1080x1920` - [x] 横屏 16:9，`1920x1080` - [x] 支持 **批量视频生成**，可以一次生成多个视频，然后选择一个最满意的 - [x] 支持 **视频片段时长** 设置，方便调节素材切换频率 - [x] 支持 **中文** 和 **英文** 视频文案 - [x] 支持 **多种语音** 合成，可 **实时试听** 效果 - [x] 支持 **字幕生成**，可以调整 `字体`、`位置`、`颜色`、`大小`，同时支持`字幕描边`设置 - [x] 支持 **背景音乐**，随机或者指定音乐文件，可设置`背景音乐音量` - [x] 视频素材来源 **高清**，而且 **无版权**，也可以使用自己的 **本地素材** - [x] 支持 **OpenAI**、**Moonshot**、**Azure**、**gpt4free**、**one-api**、**通义千问**、**Google Gemini**、**Ollama**、 **DeepSeek** 等多种模型接入 - 中国用户建议使用 **DeepSeek** 或 **Moonshot** 作为大模型提供商（国内可直接访问，不需要VPN。注册就送额度，基本够用） ## 配置要求 - 建议最低 CPU 4核或以上，内存 8G 或以上，显卡非必须 - Windows 10 或 MacOS 11.0 以上系统 ## 快速开始下载一键启动包，解压直接使用（路径不要有 **中文** 和 **空格**） ### Windows 下载后，建议先**双击执行** `update.bat` 更新到**最新代码**，然后双击 `start.bat` 启动启动后，会自动打开浏览器（如果打开是空白，建议换成 **Chrome** 或者 **Edge** 打开） ### 其他系统还没有制作一键启动包，看下面的 **安装部署** 部分，建议使用 **docker** 部署，更加方便。 ## 安装部署 ### 前提条件 - 尽量不要使用 **中文路径**，避免出现一些无法预料的问题 - 请确保你的 **网络** 是正常的，VPN需要打开`全局流量`模式 #### ② 修改配置文件 - 将 `config.example.toml` 文件复制一份，命名为 `config.toml` - 按照 `config.toml` 文件中的说明，配置好 `pexels_api_keys` 和 `llm_provider`，并根据 llm_provider 对应的服务商，配置相关的 API Key ### Docker部署 #### ① 启动Docker 如果未安装 Docker，请先安装 #### ② 访问Web界面打开浏览器，访问 http://0.0.0.0:8501 #### ③ 访问API文档打开浏览器，访问 http://0.0.0.0:8080/docs 或者 http://0.0.0.0:8080/redoc #### ① 创建虚拟环境创建 python 虚拟环境 ```shell cd MoneyPrinterTurbo conda create -n MoneyPrinterTurbo python=3.10 conda activate MoneyPrinterTurbo pip install -r requirements.txt ``` #### ② 安装好 ImageMagick - Windows: - 下载 https://imagemagick.org/script/download.php 选择Windows版本，切记一定要选择 **静态库** 版本，比如 ImageMagick-7.1.1-32-Q16-x64-**static**.exe - 安装下载好的 ImageMagick，**注意不要修改安装路径** - 修改 `配置文件 config.toml` 中的 `imagemagick_path` 为你的 **实际安装路径** - MacOS: ```shell brew install imagemagick ```` - Ubuntu ```shell sudo apt-get install imagemagick ``` - CentOS ```shell sudo yum install ImageMagick ``` #### ③ 启动Web界面注意需要到 MoneyPrinterTurbo 项目 `根目录` 下执行以下命令 ###### Windows ```bat conda activate MoneyPrinterTurbo webui.bat ``` ###### MacOS or Linux ```shell conda activate MoneyPrinterTurbo sh webui.sh ``` 启动后，会自动打开浏览器（如果打开是空白，建议换成 **Chrome** 或者 **Edge** 打开） #### ④ 启动API服务 ```shell python main.py ``` 启动后，可以查看 `API文档` http://127.0.0.1:8080/docs 或者 http://127.0.0.1:8080/redoc 直接在线调试接口，快速体验。 ## 语音合成所有支持的声音列表，可以查看：[声音列表](./docs/voice-list.txt) 新增了9种Azure的语音合成声音，需要配置API KEY，该声音合成的更加真实。 ## 字幕生成当前支持2种字幕生成方式： - **edge**: 生成`速度快`，性能更好，对电脑配置没有要求，但是质量可能不稳定 - **whisper**: 生成`速度慢`，性能较差，对电脑配置有一定要求，但是`质量更可靠`。可以修改 `config.toml` 配置文件中的 `subtitle_provider` 进行切换建议使用 `edge` 模式，如果生成的字幕质量不好，再切换到 `whisper` 模式 > 注意： 1. whisper 模式下需要到 HuggingFace 下载一个模型文件，大约 3GB 左右，请确保网络通畅 2. 如果留空，表示不生成字幕。 > 由于国内无法访问 HuggingFace，可以使用以下方法下载 `whisper-large-v3` 的模型文件下载地址： - 百度网盘: https://pan.baidu.com/s/11h3Q6tsDtjQKTjUu3sc5cA?pwd=xjs9 - 夸克网盘：https://pan.quark.cn/s/3ee3d991d64b 模型下载后解压，整个目录放到 `.\MoneyPrinterTurbo\models` 里面，最终的文件路径应该是这样: `.\MoneyPrinterTurbo\models\whisper-large-v3` ``` MoneyPrinterTurbo ├─models │ └─whisper-large-v3 │ config.json │ model.bin │ preprocessor_config.json │ tokenizer.json │ vocabulary.json ``` ## 背景音乐用于视频的背景音乐，位于项目的 `resource/songs` 目录下。 > 当前项目里面放了一些默认的音乐，来自于 YouTube 视频，如有侵权，请删除。 ## 字幕字体用于视频字幕的渲染，位于项目的 `resource/fonts` 目录下，你也可以放进去自己的字体。 ## 常见问题 **确保你安装和启动了docker服务**，执行以下命令启动docker服务 ```shell docker run -p 3040:3040 missuo/freegpt35 ``` 启动成功后，修改 `config.toml` 中的配置 - `llm_provider` 设置为 `openai` - `openai_api_key` 随便填写一个即可，比如 '123456' - `openai_base_url` 改为 `http://localhost:3040/v1/` - `openai_model_name` 改为 `gpt-3.5-turbo` > 注意：该方式稳定性较差 ### ❓AttributeError: 'str' object has no attribute 'choices'` 这个问题是由于大模型没有返回正确的回复导致的。大概率是网络原因，使用 **VPN**，或者设置 `openai_base_url` 为你的代理，应该就可以解决了。同时建议使用 **Moonshot** 或 **DeepSeek** 作为大模型提供商，这两个服务商在国内访问速度更快，更加稳定。 ### ❓RuntimeError: No ffmpeg exe could be found 通常情况下，ffmpeg 会被自动下载，并且会被自动检测到。但是如果你的环境有问题，无法自动下载，可能会遇到如下错误： ``` RuntimeError: No ffmpeg exe could be found. Install ffmpeg on your system, or set the IMAGEIO_FFMPEG_EXE environment variable. ```

评论收藏

内容反馈