能说会唱，基于ChatGPT的音频理解与生成系统AudioGPT资源-CSDN文库

共1个文件

docx：1个

自然语言处理

112 浏览量 2023-05-06 22:57:14 上传评论 1 收藏 244KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

能说会唱，基于ChatGPT的音频理解与生成系统AudioGPT.zip （1个子文件）

能说会唱，基于ChatGPT的音频理解与生成系统AudioGPT.docx 267KB

来自浙大、北大、CMU 和人大的研究人员提出了一种全新的音频理解

与生成系统 AudioGPT。不仅能够实现跨模态转换，以及音频模态的理

解、生成，还能能够解决 20+种多语种、多模态的 AI 音频任务。

一、听觉效果超炫

最近几个月，ChatGPT、GPT-4 横空出世，火爆出圈，大型语言模型

(LLM) 在语言理解、生成、交互和推理方面表现出的非凡能力，引起了

学界和业界的极大关注，也让人们看到了 LLM 在构建通用人工智能

(AGI) 系统方面的潜力。

现有的 GPT 模型具有极高的语言生成能力，是目前最为先进的自然语

言处理模型之一，广泛应用于对话、翻译、代码生成等的自然语言处理

领域。除了书面语言，用户在自然对话中主要使用口语 (Spoken

Language)，而传统大语言模型却无法胜任音频理解与生成任务：

�

�

GPT 模态限制。用户在自然对话中主要使用口语，对口语理解与合成

有极大需求，而单模态 GPT 不能满足对音频(语音、音乐、背景音、3D

说话人)模态的理解、生成需求。

�

�

�

�

音频数据、模型相对少。基础模型(Foundation Model)少或交互性差。

相较于文本模态，用于重新训练语音多模态 GPT 的数据较少。

�

�

�

�

用户交互性差。用户广泛的使用语音助手如 Siri, Alexa 基于自然对话高

效地完成工作。然而目前 GPT 之间的交互大多根据键盘输入的文本，

交互性差，口语交互更能拉进和用户之间的关系，提升模型易用性。

�

�

现在，HuggingGPT 增加了 Gradio 演示:

话不多说，咱们直接看一个 AudioGPT 对话的例子，包括里面保含了文

本、图像和语音三种模态的输入，AudioGPT 能理解不同模态的输入，

生成结果也能以文本、图像、音频相结合的方式展现给用户。

语音

Q1: "Generate a speech with text "here we go"."

A1:

Q2: "Transcribe this speech."

A2:Here we go.

Q3: "Separate each speech from the speech mixture."

A3:

音乐

Q4:"Please generate a piece of singing voice. Text sequence is 小酒

窝长睫毛 AP 是你最美的记号. Note sequence is C#4/Db4 | F#4/Gb4 |

G#4/Ab4 | A#4/Bb4 F#4/Gb4 | F#4/Gb4 C#4/Db4 | C#4/Db4 | rest |

C#4/Db4 | A#4/Bb4 | G#4/Ab4 | A#4/Bb4 | G#4/Ab4 | F4 | C#4/Db4.

Note duration sequence is 0.407140 | 0.376190 | 0.242180 | 0.509550

0.183420 | 0.315400 0.235020 | 0.361660 | 0.223070 | 0.377270 |

0.340550 | 0.299620 | 0.344510 | 0.283770 | 0.323390 | 0.360340."

A4:

音效

Q5: "Generate an audio of a piano playing."

A5:

Q6: Give me the description of this audio.

A6: The audio is recording of a goat bleating nearby several times.

3D 说话人

Q7: Generate a talking human portrait video .

此外，论文中还有一个多轮对话与上下文理解的例子：

内容反馈

残余的记忆

粉丝: 10
资源: 323

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip