乳腺癌预测数据集
一、案例介绍
这是一个典型的利用当前流行的机器学习算法来进行生物数据挖掘的案例,非常具有代表性。
同样的算法可以应用在其他不同肿瘤研究中。这是一份来自威斯康星州采集的乳腺癌数据集。这个数据集中包含699个细针抽吸活检的样本单元,其中458个(65.5%)为良性样本单元,241个(34.5%)为恶性样本单元。
数据集包含11个变量指标,也就是数据集有11列,分别是:
✓ ID
✓ 肿块厚度
✓ 细胞大小的均匀性
✓ 细胞性状的均匀性
✓ 边际附着力
✓ 单个上皮细胞大小
✓ 裸核
✓ 乏味染色体
✓ 正常核
✓ 有丝分裂
✓ 类别