数据挖掘的第二次作业
1
下表由雇员数据库的训练数据组成,数据己泛化。例如,年龄
“31 35
〃表示
31
到
35
的
Z
间。对于给定的行,
count
表示
department, status, age
和
salary
在该行上具有给定值
的元组 数。
status
是类标号属性。
department
sales
sales
sales
systems
systems
systems
systems
marketing
marketing
secretary
secretary
status
senior
junior
junior
junior
senior
junior
senior
senior
junior
senior
junior
age
31..35
26...30
31...35
21...25
31...35
26..30
41...45
36...40
31... 35
46...50
26...30
salary
46K...50K
26K...30K
31K...35K
46K...50K
66K...70K
46K...50K
66K...70K
46K...50K
41K...45K
36K...40K
26K...30K
count
30
40
40
20
5
3
3
10
4
4
6
1)
如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的
count
。
Status
分为
2
个部分:
Department
分为
4
个部分:
Senior
共计
52Sales
共计
110
Junior
共计
113Systems
共计
31
Marketing
共计
14
Secretary
共计
10
Age
分为
6
个部分:
Salary
分为
6
各部分:
21...25
共计
20
共计
49
26..30
31 …35
36 …40
41...45
26K..30K
31K..35K
36K...40K
41K...45K
46K...50K
66K...70K
共计
46
共计
40
共计
4
共计
4
共计
63
共计
8
46...50
共计
79
共计
10
共计
3
共计
4
Info(D)=
-
磊
log
2
善-詈
Sg2
罟=
0.889
位
Info(departmet)—
评论10
最新资源