simdata.RData 包含一个 list(simdata)和两个 vector(beta.id, varnames)
varnames 代表设计矩阵 X 的列名,长度为 630。后续我们将在全部 630 个自
变量上建立 Lasso 回归模型,进行变量选择。
实际生成模拟数据时,y 只与 630 个变量中的 25 个有关(称为 active
variable)。 beta.id 代表 active variable 在 varnames 中的位置。即
varnames[beta.id]代表 25 个 active variable 的变量名。
simdata 是一个长度为 6 的 list,6 个元素对应 6 种模拟数据的生成规则,
每个元素又包含设计矩阵 X 和因变量 y 两个元素。Misspecified_miss 表示
模型存在遗漏变量问题,建模所用设计矩阵 X 只有 618 列,12 个 active
variable 被遗漏;其余 5 个元素下的设计矩阵 X 相同,均为 1000 行 630 列。
具体地,6 种生成规则为:(以下β的长度均为 630,在 beta.id 对应位置上的分
量为 1,其余分量为 0)
1. Gaussian: 误差项服从高斯分布
2. t_3: 误差项服从 t 分布
3. Block: 误差项服从协方差矩阵为块三对角矩阵的多元高斯分布
4. Dependent: 误差项方差与 X 相关(异方差)