Python 中进行特征重要性分析的 9 个常用方法
如果有一个包含数十个甚至数百个特征的数据集,每个特征都可能对你的
机器学习模型的性能有所贡献。但是并不是所有的特征都是一样的。有些
可能是冗余的或不相关的,这会增加建模的复杂性并可能导致过拟合。
特征重要性分析可以识别并关注最具信息量的特征,从而带来以下几个优
势:
� 改进的模型性能
� 减少过度拟合
� 更快的训练和推理
� 增强的可解释性
下面我们深入了解在 Python 中的一些特性重要性分析的方法。
特征重要性分析方法
1、排列重要性 PermutationImportance
该方法会随机排列每个特征的值,然后监控模型性能下降的程度。如果获
得了更大的下降意味着特征更重要
from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.inspection import permutation_importance
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(cancer.data,
cancer.target, random_state=1)