数据量的大致估计
关于数据量的2个基本问题
10 EPV rule: 10 events per predictor variable
1. 数据量的大致估计:
Eg1: 图片2分类任务
特征提取1024维度,则约需要1024×10×2 张图片
Eg2: NMT QE任务的训练数据量估计:
Source: Several flavors of the Linux kernel exist for each port
MT:
每个
OK
端口
OK
都 有
OK
Linux 内核
OK OK
的 几种 味道
OK OK BAD
OK
每个词的context presentation : 1024
假设:每个词的正负分类均衡,上下文窗口3~10
需要60K~200K训练样本 (i.e. ( 1024×10×2×3 )~ ( 1024×10×2×10 ) )