数据集附件中给出了20世纪90年代某地区在企业内就业的616名员工抽样调查数据,我们截取了其中的年收入(annearn)、平均小时工资(hrearn)、性别(gender)、年龄(age)、工作经验(exper)、是否结婚(married)、在当前企业工作的年限(tenure)、受教育年限(educ)、年工作小时数(annhrs)、年公司福利(annbens)、是否工会会员(union)、是否办公室工作人员(office),共计12个指标以及其中一些指标的变形形式数据。
1. 请以annearn或者hrearn为因变量,选择变量的合适形式建立多元线性回归模型分析企业员工收入的影响因素。哪些变量是显著的?模型的总体显著性如何?特别的,请解释企业员工的收入水平是否存在性别差异?办公室白领是否比其他人员收入水平更高?
2. 请检验你所建立的多元线性回归模型是否存在多重共线性问题?如果存在,请基于岭回归或者LASSO回归找出你认为最合理的模型。
3. 请检验你所建立的最合理模型是否存在异方差性?如果存在,如何矫正?
4. 请检验你所建立的最合理模型是否存在误差的自相关性?如果存在,如何矫正