【免费】比赛题目-决策1资源-CSDN文库

需积分: 0 126 浏览量 2022-08-08 21:58:03 上传评论收藏 15KB DOCX 举报

资源详情

资源评论

资源推荐

背景

交易欺诈作为信用卡行业面临的主要贷后风险业务问题，每年都使信用卡行业遭受巨额损失。

基于大数据机器学习开发出高效的交易欺诈识别模型一直是金融行业的主要挑战之一。本次

大赛以此作为主题，具体的数据和要求如下：

内容

本次建模的目标是识别交易是否欺诈，提供的数据集为某行某月一部分信用卡客户在两天内

发生的交易，训练集包含 256327 条交易记录，有 443 条为欺诈交易，测试集 28480 条，需

要参赛者提交预测结果。数据集高度不平衡，正类（欺诈）占所有交易的 0.172%。

数据集中只包含数值型变量，由于数据保密性问题，我们不能提供原始特征和数据上的更多

背景信息，除‘Time’和‘Amount’外的其他变量都进行了 PCA 变换，其中特征 V1，V2，…,V28

是由 PCA 得到的主成分。特征‘Time’包含每个交易和第一天 00：00：00 之间经过的秒数，

‘Amount’是该笔交易的金额。特征‘Class’是预测的目标变量，在欺诈的情况下取值为 1，否

则为 0。

提交方式

每个参赛队伍需要提交测试集的预测结果的 csv 文件，文件名为”队伍名_预测结果.csv”，内容

格式如下:

Index（序号），Pred(预测概率)，Class(结果)

1，0.92, 1

2，0.13, 0

3，0.24, 0

4，0.55, 0

5，0.12, 1

…

对于此次的信用卡交易欺诈预测，我们采用 Precision-Recall Curve (AUPRC)作为评价方式。

每只队伍都需要提交相应的比赛报告，你们可以使用你们喜欢的工具（Jupyter Notebook，

Microsoft office 等）来生成你们的报告，但你们的报告必须能采用 HTML，PDF，PPT，WORD

这些通用格式。你们的代码应采用一个单独的压缩文件包提交，且与你们的预测结果文件和

报告分开。你们的代码将不会被评分，但你的结果必须包含你的代码，否则不会被打分。

我们强烈建议你们采用 Jupyter Notebook 来进行数据的处理、探索、建模。

请尽量采用 python，R 作为建模工具，其他语言在决赛环境中可能无法使用。如果有什么

其他的问题，请联系群里的工作人员，我们会给你们提供一些建议。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余0页未读，立即下载

评论0

内容反馈

尹子先生

粉丝: 19
资源: 324

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip