没有合适的资源?快使用搜索试试~ 我知道了~
NLP-Subword三大算法原理:BPE、WordPiece、ULM.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 27 浏览量
2023-08-12
21:46:21
上传
评论
收藏 280KB PDF 举报
温馨提示
试读
5页
NLP-Subword三大算法原理:BPE、WordPiece、ULM
资源推荐
资源详情
资源评论
NLP Subword三⼤算法原理:BPE、WordPiece、ULM
2⽉16⽇⼣⼩瑶的卖萌屋
⼀只⼩狐狸带你解锁NLP/ML/DL秘籍
正⽂作者:Luke
正⽂来源:https://zhuanlan.zhihu.com/p/86965595
前⾔
Subword算法如今已经成为了⼀个重要的NLP模型性能提升⽅法。⾃从2018年BERT横空出世横扫NLP界各⼤排⾏榜之后,各
路预训练语⾔模型如同⾬后春笋般涌现,其中Subword算法在其中已经成为标配。且与传统空格分隔tokenization技术的对⽐
有很⼤的优势~~
传统词表⽰⽅法⽆法很好的处理未知或罕⻅的词汇(OOV问题)
传统词tokenization⽅法不利于模型学习词缀之前的关系
E.g. 模型学到的“old”, “older”, and “oldest”之间的关系⽆法泛化到“smart”, “smarter”, and “smartest”。
Character embedding作为OOV的解决⽅法粒度太细
Subword粒度在词与字符之间,能够较好的平衡OOV问题
话不多说,和⼩⼣⼀起来看⼀下当下最热最⽕三个subword算法叭o(* ̄▽ ̄*)ブ
Byte Pair Encoding
BPE(字节对)编码或⼆元编码是⼀种简单的数据压缩形式,其中最常⻅的⼀对连续字节数据被替换为该数据中不存在的字节。
后期使⽤时需要⼀个替换表来重建原始数据。OpenAI GPT-2 与Facebook RoBERTa均采⽤此⽅法构建subword vector.
优点
可以有效地平衡词汇表⼤⼩和步数(编码句⼦所需的token数量)。
缺点
基于贪婪和确定的符号替换,不能提供带概率的多个分⽚结果。
算法
1. 准备⾜够⼤的训练语料
2. 确定期望的subword词表⼤⼩
3. 将单词拆分为字符序列并在末尾添加后缀“ </ w>”,统计单词频率。本阶段的subword的粒度是字符。例如,“ low”的频率
为5,那么我们将其改写为“ l o w </ w>”:5
4. 统计每⼀个连续字节对的出现频率,选择最⾼频者合并成新的subword
5. 重复第4步直到达到第2步设定的subword词表⼤⼩或下⼀个最⾼频的字节对出现频率为1
资源评论
地理探险家
- 粉丝: 985
- 资源: 5416
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android源码新基线代码更新的方法
- 1_二级程序设计题(34).rar
- 二级程序调试题(填空27+改错7).docx
- HM2314-VB一款N-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
- 基于深度学习的危险驾驶检测算法python源码+视频判断是否闭眼或者张开嘴哈欠和吸烟打电话等手势行为功能涵盖7类.zip
- Free-Fs 开源文件管理系统
- HM2314B-VB一款N-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
- 毕业设计:Python高校学生学业预警系统(源码 + 数据库 + 说明文档)
- HM2312-VB一款N-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
- 毕业设计:Python的在线自主评测系统(源码 + 数据库 + 说明文档)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功