大模型理论基础打卡Task03
本文将详细介绍大模型理论基础中的有害性和假信息问题,并讨论如何检测和减轻这些问题的影响。
4.1 概述
大型语语言模型可能会生成有害的内容,或者产生误导性的内容。因此,在讨论大型语语言模型之前,我们需要将有害性和假信息置于内容审核的问题中来理解。语语言模型与这些伤害之间存在一种断裂。语语言模型处理的是文本,这是它们接受训练的数据,并且擅长捕获统计模式然而,这些伤害涉及的是人,即某个 人收到一段文本并因此感到困扰或受伤。
4.2 有害性
有害性可以被定义为粗鲁、不尊重或不合理的行为,可能使某人想要离开一场对话。有害性的定义在很大程度上取决于上下文。只有使用词汇列表来确定一个文本的有害性是不够的,因为真正有害的文本可能不包含任何“坏词”。
4.2.1 Perspective API
Perspective API是一个机器学习模型,可以为每个输入分配一个介于0和1之间的有害性分数。在维基百科的讨论页面上(这里的志愿者版主讨论编辑决策)训练并由众包工人标记的。虽然Perspective API是机器学习和自然语言处理社区广泛使用的一个起点,但是使用时需要持有适度的怀疑态度。
4.2.2 RealToxicityPrompts
RealToxicityPrompts是一个数据集,用于评估语语言模型生成的有害性。在这个数据集中,每个输入都被标记为有害或无害。结果显示,语语言模型可以生成有害的内容,例如“You suck”(有害性:95.89%)。
4.2.2.1 注意事项与无提示实验
在理解自动完成的结果时,需要注意其和真实应用环境的分离。毒性得分是基于Google的Perspective API,这个API 虽然有一定的作用,但也存在一些明显的限制。
4.2.2.2 提示实验
实验内容从OpenWebText中取出的句子,这是训练GPT-2用的数据的开源克隆。毒性分数由Perspective API计算,每个毒性范围有25K句子:在实验中使用了GPT-3语语言模型。结果显示,即使给出“非有害”提示,也可能生成“有害”补全。
4.2.2.3 减轻毒性
如何缓解语语言模型GPT-2生成内容的毒性?可以使用基于数据的方法,例如使150K个非有害文档来训练DAPT,这些文档来自于OpenWebText。也可以使用基于解码的方法,例如使用PPLM来根据毒性分类器的梯度指导生成内容。
4.2.3 总结
减轻毒性只能部分有效,并且可能有其他负面影响(对边缘化群体产生负面偏见)。因此,我们需要关注减轻毒性时需要考虑的其他问题。
4.3 虚假信息
虚假信息是指语语言模型生成的内容中包含的虚假或误导性信息。检测虚假信息可以使用机器学习模型,例如Perspective API。减轻虚假信息可以使用基于数据的方法,例如使150K个非有害文档来训练DAPT。