机器学习目标:
建立一个模型预测有可能离职的员工。
具体要求:
要体现完整机器学习建模过程。
数据讲解:
数据主要包括影响员工离职的各种因素(工资、出差、工作环境满意度、工作投入度、
是否加班、是否升职、工资提升比例等)以及员工是否已经离职的对应记录。
数据分为训练数据和测试数据,分别保存在 pfm_train.csv 和 pfm_test.csv 两个文
件中。
其中训练数据主要包括 1100 条记录,31 个字段,主要字段说明如下:
(1)Age:员工年龄
(2)Attrition:员工是否已经离职,1 表示已经离职,2 表示未离职,这是目标预测
值;
(3)BusinessTravel:商务差旅频率,Non-Travel 表示不出差(0),Travel_Rarely
表示不经常出差(1),Travel_Frequently 表示经常出差(2);
( 4 ) Department : 员 工 所 在 部 门 , Sales 表 示 销 售 部 , Research &
Development 表示研发部,Human Resources 表示人力资源部;
(5)DistanceFromHome:公司跟家庭住址的距离,从 1 到 29,1 表示最近,29
表示最远;
(6)Education:员工的教育程度,从 1 到 5,5 表示教育程度最高;
(7)EducationField : 员工所学习的专 业 领域, Life Sciences 表示生命科 学 ,
Medical 表 示 医 疗 , Marketing 表 示 市 场 营 销 , Technical Degree 表 示 技 术 学 位 ,
Human Resources 表示人力资源,Other 表示其他;
(8)EmployeeNumber:员工号码;
(9)EnvironmentSatisfaction:员工对于工作环境的满意程度,从 1 到 4,1 的
满意程度最低,4 的满意程度最高;
(10)Gender:员工性别,Male 表示男性,Female 表示女性;
(11)JobInvolvement:员工工作投入度,从 1 到 4,1 为投入度最低,4 为投入
度最高;
(12)JobLevel:职业级别,从 1 到 5,1 为最低级别,5 为最高级别;
(13)JobRole:工作角色:Sales Executive 是销售主管,Research Scientist 是
科学研究员,Laboratory Technician 实验室技术员,Manufacturing Director 是制造
总 监 , Healthcare Representative 是 医 疗 代 表 , Manager 是 经 理 , Sales