2023/6/28 22:40
大模型时代,我们真的不再需要分词了吗?
https://mp.weixin.qq.com/s/xuOXVA3M_3gHdOfghCqH7w
1/10
大模型时代,我们真的不再需要分词了吗?
收录于合集
#卖萌屋@自然语言处理
97个
文 | 付奶茶
编 | 小轶
分词是NLP的基础任务,将句子、段落分解为字词单位,方便后续的处理的分析。不知道
NLPer有没有思考过这个问题:
我们在各项研究工作中想要建模的文本单位究竟是什么?
What are the units of text that we want to model?
在这篇论文中,作者调查了pre-neural、neural era期的几项工作,通过工作,作者提出了一个
结论:
"there is and likely will never be a silver bullet solution for all applications and
that thinking seriously about okenization remains important for many
applications"
即对于所有的应用,有且可能永远不会有灵丹妙药般的解决方案(angular solution),认真思考
研究的计划对于很多应用仍然很重要.下面,我们一起来看下这篇论文:
付奶茶 2022-03-10 12:05
原创
夕小瑶科技说