Data Mining Take HOme EXam
学号
:
XXXX __________ 姓名:XXX
1. (20 分)考虑下表的数据集
顾客 ID 性别 车型 衬衣尺码 类
1
家用 小 C0
2
运动 中 C0
3
运动 中 C0
4
运动 大 C0
5
运动 加大 C0
6
运动 加大 C0
7
运动 小 C0
8
运动 小 C0
9
运动 中 C0
10
豪华 大 C0
11
家用 大 C1
12
家用 加大 C1
13
家用 中 C1
14
豪华 加大 C1
15
豪华 小 C1
16
豪华 小 C1
17
豪华 中 C1
18
豪华 中 C1
19
豪华 中 C1
20
豪华 大 C1
(1) 计算整个数据集的 Gini 指标值。
(2) 计算属性性别的 Gini 指标值
(3) 计算使用多路划分属性车型的 Gini 指标值
(4) 计算使用多路划分属性衬衣尺码的 Gini 指标值
(5) 下面哪个属性更好,性别、车型还是衬衣尺码?为什么? 解:(1)
类
顾客
10
10
)∕20)^2-
(10∕20)^2=0.5
c0
c1
Gi ni=1-
(1(
性别 男 女
c0 6 B
c1 4 6
Gi ni=[{1-(6∕10)^2-(4∕10)^2}*1∕2]*2=0.48
⑶