没有合适的资源?快使用搜索试试~ 我知道了~
《万字长文带你解读AIGC》系列之任务篇.pdf
需积分: 5 4 下载量 99 浏览量
2023-12-17
19:19:05
上传
评论
收藏 3.95MB PDF 举报
温馨提示
试读
11页
《万字长文带你解读AIGC》系列之任务篇.pdf
资源推荐
资源详情
资源评论
《万字长文带你解读AIGC》系列之任务篇
作为系列篇章的续作,本文将承上启下,着重介绍 AIGC 中相关的任务,包括 text-to-tex
t 、 text-to-image 、 image-to-text 等 。 创作不易,如 果 觉 得 本 文 对 您有点启发或 帮
助,烦请各位小伙伴帮忙点赞转发在看,一键三连,小编不胜感激。
4.文本生成
4.1文本到文本
更好的理解和使用自然语言处理,需要了解其中的两个基本任务:理解和生成。这两个任务并
不是完全独立的,因为生成一段合适的文本通常需要先理解一些文本输入。例如,语言模型通
常会把一串文本转化为另一串文本,这构成了文本生成的核心任务,包括机器翻译、文本摘要
和对话系统。
除此之外,文本生成在两个方向上不断发展:可控性和多模态。第一个方向旨在使生成的内容
更加可控,可以通过一些参数控制生成的文本的特定属性,比如情感色彩、风格和内容等。第
二个方向则致力于生成多种类型的内容,比如图像、语音和视频等,这就是所谓的多模态文本
生成。
4.1.1对话机器人
对话机器人( Chatbots )的主要任务是为用户提供更好的人机交流体验。根据应用中任务是否
已指定,对话系统可以分为两类:面向任务的对话系统( Task-oriented Dialogue system
s, TOD )和开放域对话系统( Open-Domain Dialogue systems, ODD )。具体来说,面向任
务的对话系统专注于完成任务并解决特定的问题(例如餐厅预订和机票预订)。而开放域对话
系统通常是基于数据驱动的,旨在与人类进行聊天,没有特定的任务或领域限制,如 ChatGP
T 。
TOD
面向任务的对话系统可以分为模块化和端到端系统。模块化方法包括四个主要部分:自然语言
理解(NLU)、对话状态跟踪(DST)、对话策略学习(DPL)和自然语言生成(NLG)。
首先,通过 NLU 将用户输入编码成语义槽, DST 和 DPL 则确定下一步操作,然后由 NLG 将
其转化为自然语言作为最终响应。这四个模块旨在以可控的方式生成响应,并可分别进行优
化。然而,某些模块可能不可微分,单个模块的改进可能不会导致整个系统的改进。为了解决
这些问题,端到端方法要么通过使每个模块可微分来实现端到端训练管道,要么在系统中使用
单个端到端模块。无论是模块化还是端到端系统,仍然存在一些挑战,包括如何提高 DST 的
跟踪效率,以及如何在数据有限的情况下提高端到端系统的响应质量。
ODD
开放领域系统旨在与用户进行无任务和领域限制的聊天,可以分为三种类型:检索式系统、生
成式系统和集成系统。具体而言,检索式系统总是从响应语料库中找到现有的响应,而生成式
系统可以生成在训练集中可能不存在的响应。集成系统通过选择最佳响应或用生成式方法优化
检索式模型,结合了检索式和生成式方法。先前的工作从多个方面改进了开放领域系统,包括
对话上下文建模,提高响应的连贯性和多样性。
ChatGPT
以大家伙最熟悉的 ChatGPT 为例,其也属于开放领域对话系统的范畴,整个 Pipeline 如上
图所示。不过,除了回答各种问题外, ChatGPT 还可用于论文写作、代码调试、表格生成等
等。
4.1.2机器翻译
机器翻译是指将一种语言的文本自动翻译成另一种语言的技术。在 ChatGPT 还没出来之前,
大家用的比较多的应该就是这个服务。关于这一块内容,笔者在吴军博士所著的《数学之美》
一书中也曾有涉猎过。以往的机器翻译大都是基于某种规则设定的,耗时耗力不说,准确率也
远远达不到商业化的地步。后续基于统计的方法让人们重新看到了希望,直到近些年随着深度
学习技术和算力的崛起,基于神经机器翻译(NMT)逐渐成为主流方法,因为它具有更强的
能力捕捉句子中的长依赖关系。神经机器翻译的成功主要归因于语言模型,它的核心是预测一
个单词在前面的条件下出现的概率,这当中“隐马尔科夫”的功劳不言而喻。
Seq2seq & Transformer
Seq2seq 是一项将编码器-解码器 RNN 结构应用于机器翻译的开创性工作。当句子变长时,S
eq2seq 的性能会下降,因此后续人们提出了一种新的注意力机制,以帮助进行额外的单词对
齐翻译。在注意力机制的不断提高下,谷歌的 NMT 系统在 2006 年成功地将人类翻译工作量
减少了约 60%。虽然基于卷积神经网络的架构也曾经尝试过多次,但无法像注意力机制增强
的 RNN 一样达到相同的性能。最后便是被一种称为 Transformer 的架构超越了。无论是 R
NN 或 Transformer 作为架构的情况下,NMT 通常利用自回归生成模型,在推理过程中贪婪
地搜索最高概率的单词来预测下一个单词。
machine translation
NMT 的趋势是在资源有限的情况下实现令人满意的性能,其中模型是用有限的双语语料库进
行训练。缓解数据稀缺性的一种方法是利用辅助语言,如使用其他语言对的多语言训练或以英
语作为中间支点语言的枢轴翻译。另一种流行的方法是利用预先训练的语言模型,例如 BERT
或 GPT 。例如,使用 BERT 或 RoBERTa 初始化模型权重显着提高了英语-德语翻译性能。
无需进行微调,GPT 系列模型也表现出竞争性能。最近,ChatGPT 在机器翻译方面显示出
其强大性能,完全可与商业产品(例如谷歌翻译或网易的有道翻译)相媲美。
4.2多模态文本生成
4.2.1图像到文本
剩余10页未读,继续阅读
资源评论
阿拉伯梳子
- 粉丝: 1192
- 资源: 5408
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于matlab实现夜间车牌识别程序(1).rar
- 基于matlab实现图像处理,本程序使用背景差分法对来往车辆进行检测和跟踪.rar
- 基于matlab实现视频监控中车型识别代码,自己写的,希望和大家多多交流.rar
- sdk.config
- 基于matlab实现配电网三相潮流计算方法,对几种常用的配电网潮流计算方法进行了对比分析.rar
- 基于matlab实现配电网潮流 经典33节点 前推回代法潮流计算 回代电流 前推电压 带注释.rar
- 基于matlab实现模拟退火遗传算法的车辆调度问题研究,用MATLAB语言加以实现.rar
- 基于matlab实现蒙特卡洛的的移动传感器节点定位算法仿真代码.rar
- 华中数控系统818用户说明书
- 基于matlab实现卡尔曼滤波器完成多传感器数据融合 对多个机器人的不同传感器数据进行融合估计足球精确位置.rar
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功