没有合适的资源?快使用搜索试试~ 我知道了~
背景交易欺诈作为信用卡行业面临的主要贷后风险业务问题,每年都使信用卡行业遭受巨额损失。基于大数据机器学习开发出高效的交易欺诈识别模型一直是金融行业的主要挑战之一
资源详情
资源评论
资源推荐
背景
交易欺诈作为信用卡行业面临的主要贷后风险业务问题,每年都使信用卡行业遭受巨额损失。
基于大数据机器学习开发出高效的交易欺诈识别模型一直是金融行业的主要挑战之一。本次
大赛以此作为主题,具体的数据和要求如下:
内容
本次建模的目标是识别交易是否欺诈,提供的数据集为某行某月一部分信用卡客户在两天内
发生的交易,训练集包含 256327 条交易记录,有 443 条为欺诈交易,测试集 28480 条,需
要参赛者提交预测结果。数据集高度不平衡,正类(欺诈)占所有交易的 0.172%。
数据集中只包含数值型变量,由于数据保密性问题,我们不能提供原始特征和数据上的更多
背景信息,除‘Time’和‘Amount’外的其他变量都进行了 PCA 变换,其中特征 V1,V2,…,V28
是由 PCA 得到的主成分。特征‘Time’包含每个交易和第一天 00:00:00 之间经过的秒数,
‘Amount’是该笔交易的金额。特征‘Class’是预测的目标变量,在欺诈的情况下取值为 1,否
则为 0。
提交方式
每个参赛队伍需要提交测试集的预测结果的 csv 文件,文件名为”队伍名_预测结果.csv”,内容
格式如下:
Index(序号),Pred(预测概率),Class(结果)
1,0.92, 1
2,0.13, 0
3,0.24, 0
4,0.55, 0
5,0.12, 1
…
对于此次的信用卡交易欺诈预测,我们采用 Precision-Recall Curve (AUPRC)作为评价方式。
每只队伍都需要提交相应的比赛报告,你们可以使用你们喜欢的工具(Jupyter Notebook,
Microsoft office 等)来生成你们的报告,但你们的报告必须能采用 HTML,PDF,PPT,WORD
这些通用格式。你们的代码应采用一个单独的压缩文件包提交,且与你们的预测结果文件和
报告分开。你们的代码将不会被评分,但你的结果必须包含你的代码,否则不会被打分。
我们强烈建议你们采用 Jupyter Notebook 来进行数据的处理、探索、建模。
请尽量采用 python,R 作为建模工具,其他语言在决赛环境中可能无法使用。如果有什么
其他的问题,请联系群里的工作人员,我们会给你们提供一些建议。
尹子先生
- 粉丝: 19
- 资源: 324
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0