那么问题来了,为什么论⽂中没有取中位数呢(* ̄m ̄)?
虽然ELECTRA的思想仍是很惊艳的,但这样的结果不免让我们对原论⽂的数据产⽣质疑,对该质疑更详细的讨论⻅评论区置顶留
⾔。
不过,有了word2vec和transformer的⼤家都懂的前⻋之鉴,我们这⼀次也理解为瑕不掩瑜了(* ̄m ̄)
回顾⽬前单模型的进展(只参考原论⽂数据):
如果按照github中给出的85.2,ELECTRA跟RoBERTa还是有很⼤差距的。那今天我们就来分析⼀下ELECTRA的优点和缺陷,如
果对⽂中的观点有质疑,请在评论区⼀起讨论〜
PS:不了解这个模型的同学可以先看第⼆章ELECTRA简介〜
后台回复【electra】获取论⽂PDF噢~~
ELECTRA优缺点
通过⾃⼰的思考和知乎⼤佬们的提点[2],ELECTRA主要有如下优点:
任务难度的提升(知乎@⾹侬科技)