技术小结:
一、数据清洗
1、将缺失的数据标记为NaN: 利用```replace()```方法来实现
data = data.replace( {-1:np.nan} )
2、删除缺失值可以使用```dropna(Thresh=thresh)```来设置删除缺失多少比例的数据。
3、删除类别型变量中的“异常字”可以使用```str.find()```来判断,并做删除操作
data['UserInfo_8'] = [s[:-1] if s.find("市")>0 else s[:] for s in data.UserInfo_8]
4、```select_dtypes(['object'])```可以用来筛选DataFrame中的指定类别的数据
df_obj = data.select_dtypes(['object'])
data[df_obj.columns] = df_obj.apply(lambda x: x.str.strip())
二、特征工程
1、日期数据可以使用```pd.to_datetime()```来转换
2、利用```map()```和```lambda()```来高效实现特征的二值化
data['is_1312'] = data['year_month'].map(lambda x : 1 if x == '2013-12' else 0)
3、利用xgboost来做特征选择:
- 首先将特征与标签组成数据集:df_1 = pd.concat([pd.get_dummies(data["UserInfo_2"]),data["target"]],axis = 1)
- 再用这个数据创建X_train、y_train,并训练XGBClassifier
- 接着通过```plot_importance()```来画出重要的特征:plot_importance(model_1, max_num_features=10, height=0.4)
- 最后使用```SelectFromModel()```来完成特征的选择
* selection = SelectFromModel(xgb_clf, threshold=thresh, prefit=True)
* X_train_selected = selection.transform(X_train)
4、pandas的独热编码```get_dummies(data)```可以指定data为具体的内容
data_1 = pd.get_dummies(data[dummies_columns])
三、模型训练
1、```VotingClassifier()```是一个集成多个分类器进行投票的算法
金融风控项目 拍拍贷数据
版权申诉
5星 · 超过95%的资源 190 浏览量
2023-01-17
22:03:50
上传
评论
收藏 12.15MB RAR 举报
小夕Coding
- 粉丝: 5917
- 资源: 462
最新资源
- las格式点云数据使用详解(附VS编译好的LAStools工具)
- KRPano插件一键解密大师1.4.0 (解压密码1234)
- 《C++沉思录》是一本由 Scoot Meyers 所著的经典 C++ 编程书籍 该书深入探讨了 C++ 的一些高级概念和技术
- 海信刷机数据 LED42K310X3D(0000)BOM1-C006软件数据与LED42K310NX3D(0000)BOM1通用
- 送货单打印软件单机版直接单机运行不需要网络
- pycdc工具,Python3.9及以上可用的反编译工具(exe转py)
- 计算机网络基础练习题.pdf
- SDIO接口远距离无线图传WIFI6模块TT-S6D2TR-105HP
- 海信智能电视刷机数据 LED42K280J3D(1000) 生产用软件数据 务必确认机编一致 强制刷机 整机USB升级程序
- 步进电机控制实验-原理图-软件代码.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈