大语言模型调研汇总 大语言模型是近年来深度学习领域的热门研究方向,它们可以处理自然语言处理(NLP)任务,例如文本分类、命名实体识别、机器翻译等。这些模型的出现,使得NLP任务变得更加简单和高效。下面是大语言模型的调研汇总,介绍多种模型的类型、特点和应用。 一、基础语言模型(Basic Language Model) 基础语言模型是指只在大规模文本语料中进行了预训练的模型,未经过指令和下游任务微调、人类反馈等任何对齐优化。基本LLM的信息表,GPT-style表示decoder-only的自回归语言模型,T5-style表示encoder-decoder的语言模型,GLM-style表示GLM特殊的模型结构,Multi-task是指ERNIE 3.0的模型结构。 二、大语言模型的类型 目前,大部分的大语言模型都是Decoder-only的模型结构,原因请转移到这个问题:为什么现在的LLM都是Decoder only的架构?大部分大语言模型都不开源,而OPT、BLOOM、LLaMA三个模型是主要面向开源促进研究和应用的,中文开源可用的GLM,后续很多工作都是在这些开源的基础模型上进行微调优化的。 三、T5模型 T5是谷歌提出的一个统一预训练模型和框架,模型采用了谷歌最原始的Encoder-Decoder Transformer结构。T5将每个文本处理问题都看成“Text-to-Text”问题,即将文本作为输入,生成新的文本作为输出。通过这种方式,可以将不同的NLP任务统一在一个模型框架之下,充分进行迁移学习。 四、GPT模型 GPT-3是OpenAI发布的GPT系列模型的一个,延续了GPT-1/2基于Transformer Decoder的自回归语言模型结构,但GPT-3将模型参数规模扩大至175B,是GPT-2的100倍,从大规模数据中吸纳更多的知识。GPT-3不在追求zero-shot的设定,而是提出In-Context Learning,在下游任务中模型不需要任何额外的微调,利用Prompts给定少量标注的样本让模型学习再进行推理生成。 五、LaMDA模型 LaMDA是谷歌在2021年开发者大会上公布的专用于对话的大语言模型,具有137B个参数。论文中提出三个指导模型更好训练的指标:质量/Quality(合理性/Sensibleness、特异性/Specificity、趣味性/Interestingness,SSI)、安全性/Safety、真实性/Groundedness。LaMDA分为预训练和微调两步,在微调阶段,生成式任务(给定上下文生成响应)和判别式任务(评估模型生成响应的质量和安全性)应用于预训练模型进行微调形成LaMDA。 六、结论 大语言模型的出现,使得NLP任务变得更加简单和高效。这些模型可以处理自然语言处理任务,并且可以在不同的应用场景中使用。对大语言模型的研究和应用,将继续推动NLP领域的发展。
剩余17页未读,继续阅读
- 粉丝: 1099
- 资源: 419
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- DIWA353锅筒筒体的焊接工艺 - .pdf
- DLT 370-2010 承压设备焊接接头金属磁记忆检测.pdf
- DLT 678-1999 电站钢结构焊接通用技术条件.pdf
- DLT 678-2013 电力钢结构焊接通用技术条件.pdf
- DLT 734-2000 火力发电厂锅炉汽包焊接修复技术导则.pdf
- DLT 754-2001 铝母线焊接技术规程.pdf
- 基于AI外呼系统,基于自然语言处理(NLP)、语音识别(ASR)、语音合成(TTS)和通讯(freeswitch)技术,实现自动语音应答,用自然逼真的对话与客户
- DLT 754-2013 母线焊接技术规程.pdf
- DLT 819-2010 火力发电厂焊接热处理技术规程.pdf
- DLT 821-2002 钢制承压管道对接焊接接头射线检验技术规程.pdf
- DLT 868-2014 焊接工艺评定规程.pdf
- DLT 820-2002 管道焊接接头超声波检验技术规程.pdf
- DLT 1097-2008 火电厂凝汽器管板焊接技术规程.pdf
- DLT 905-2004 汽轮机叶片焊接修复技术导则.pdf
- DLT 1118-2009 核电厂常规岛焊接技术规程.pdf
- DLT 1117-2009 核电厂常规岛焊接工艺评定规程.pdf