【免费】Python中进行特征重要性分析的9个常用方法.zip

共1个文件

docx：1个

python

机器学习

需积分: 0 11 浏览量 2023-12-24 22:08:24 上传评论收藏 602KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

Python中进行特征重要性分析的9个常用方法.zip （1个子文件）

Python中进行特征重要性分析的9个常用方法.docx 603KB

Python 中进行特征重要性分析的 9 个常用方法

如果有一个包含数十个甚至数百个特征的数据集，每个特征都可能对你的

机器学习模型的性能有所贡献。但是并不是所有的特征都是一样的。有些

可能是冗余的或不相关的，这会增加建模的复杂性并可能导致过拟合。

特征重要性分析可以识别并关注最具信息量的特征，从而带来以下几个优

势:

� 改进的模型性能

� 减少过度拟合

� 更快的训练和推理

� 增强的可解释性

下面我们深入了解在 Python 中的一些特性重要性分析的方法。

特征重要性分析方法

1、排列重要性 PermutationImportance

该方法会随机排列每个特征的值，然后监控模型性能下降的程度。如果获

得了更大的下降意味着特征更重要

from sklearn.datasets import load_breast_cancer

from sklearn.ensemble import RandomForestClassifier

from sklearn.inspection import permutation_importance

from sklearn.model_selection import train_test_split

import matplotlib.pyplot as plt

cancer = load_breast_cancer()

X_train, X_test, y_train, y_test = train_test_split(cancer.data,

cancer.target, random_state=1)

rf = RandomForestClassifier(n_estimators=100, random_state=1)

rf.fit(X_train, y_train)

baseline = rf.score(X_test, y_test)

result = permutation_importance(rf, X_test, y_test, n_repeats=10,

random_state=1, scoring='accuracy')

importances = result.importances_mean

# Visualize permutation importances

plt.bar(range(len(importances)), importances)

plt.xlabel('Feature Index')

plt.ylabel('Permutation Importance')

plt.show()

2、内置特征重要性(coef_或 feature_importances_)

一些模型，如线性回归和随机森林，可以直接输出特征重要性分数。这些

显示了每个特征对最终预测的贡献。

from sklearn.datasets import load_breast_cancer

from sklearn.ensemble import RandomForestClassifier

X, y = load_breast_cancer(return_X_y=True)

rf = RandomForestClassifier(n_estimators=100, random_state=1)

rf.fit(X, y)

importances = rf.feature_importances_

# Plot importances

plt.bar(range(X.shape[1]), importances)

plt.xlabel('Feature Index')

plt.ylabel('Feature Importance')

plt.show()

3、Leave-one-out

迭代地每次删除一个特征并评估准确性。

from sklearn.datasets import load_breast_cancer

from sklearn.model_selection import train_test_split

from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import accuracy_score

import matplotlib.pyplot as plt

import numpy as np

# Load sample data

X, y = load_breast_cancer(return_X_y=True)

# Split data into train and test sets

X_train, X_test, y_train, y_test = train_test_split(X, y,

test_size=0.3, random_state=1)

# Train a random forest model

rf = RandomForestClassifier(n_estimators=100, random_state=1)

rf.fit(X_train, y_train)

# Get baseline accuracy on test data

base_acc = accuracy_score(y_test, rf.predict(X_test))

# Initialize empty list to store importances

importances = []

# Iterate over all columns and remove one at a time

for i in range(X_train.shape[1]):

X_temp = np.delete(X_train, i, axis=1)

rf.fit(X_temp, y_train)

acc = accuracy_score(y_test, rf.predict(np.delete(X_test, i,

axis=1)))

importances.append(base_acc - acc)

# Plot importance scores

plt.bar(range(len(importances)), importances)

plt.show()

评论收藏

内容反馈

白话机器学习

粉丝: 8905
资源: 7681

Python中进行特征重要性分析的9个常用方法.zip

overwatch_player_DA：使用Python进行数据分析和机器学习：使用ECDF和ANOVA进行EDA，相关和回归分析，数据标准化和特征工程，通过scikit-learn支持向量回归（包括模型选择，网格搜索和特征重要性）

行业文档-设计装置-基于缺失重要性的图像特征点自动检测方法.zip

Benchmarking_splice_prediction_tools:基于深度学习的剪接预测工具的基准测试分析脚本，用于使用功能性剪接方法对未知重要性的变体进行分类

特征提取程序.zip_python实现_特征提取python_特征重要性_随机森林Python_随机森林特征选择

基于Python实现中文文本关键词抽取的三种方法.zip

Python语言程序设计PPT课件.zip

Python语言程序设计习题答案.zip

Python语言程序设计源代码.zip

通过重要性抑制分析进行特征组合

基于Python的中文本关键词抽取源码(分别使用TF-IDF、TextRank、Word2Vec词聚类三种方法).zip

机器学习算法与应用大作业-基于预处理的小麦品种的分类和聚类.zip

基于Python实现的迷宫搜索游戏源码+项目详细说明(课程作业).zip

Python3数据结构与算法、实现常用算法以及分布式系统相关算法。.zip

机器学习算法与应用大作业-基于预处理的小麦品种的分类和聚类源码+数据（高分项目）.zip

机器学习算法与应用大作业-基于预处理的小麦品种的分类和聚类源码+数据+项目使用说明.zip

毕业设计-基于python简易SNMP的管理站工具毕业设计与实现（源码+数据库+演示视频）.zip

MySQL 5.1参考手册

MySQL 5.1中文手冊

mysql官方中文参考手册

MySQL 5.1官方简体中文参考手册

MYSQL中文手册

MySQL 5.1参考手册 （中文版）

MySQL 5.1参考手册中文版

基于Python+pytorch的图像处理+附完整代码图像处理，能够轻松实现图像的读取、显示、裁剪等还有机器学习等操作

python大作业 含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

《点燃我温暖你》中李峋的同款爱心代码

第十五届蓝桥杯大赛软件赛省赛-PythonB组题目

Python金融量化的高级库：TA-Lib-0.4.24（包含python3.7、3.8、3.9、3.10的32位和64位版本）

最新资源

MySQL 5.1参考手册（中文版）

python大作业含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar