CCF-BDCI-2022赛道：Web攻击检测与分类识别(多分类任务)，比赛rank-23。队员：FurenXu.zip

共53个文件

py：21个

csv：11个

ipynb：7个

需积分: 5 138 浏览量 2023-09-30 18:10:29 上传评论收藏 92.18MB ZIP 举报

在本项目中，参赛者FurenXu参与的是2022年CCF大数据与计算智能大赛（CCF-BDCI）的一个特定赛道——Web攻击检测与分类识别。这是一个多分类任务，旨在通过机器学习或深度学习技术，对Web攻击进行有效识别和分类，以提高网络安全防护能力。在比赛中取得第23名的成绩，说明了这个模型在众多参赛作品中具有一定的竞争力。项目源代码存放在名为"CCF-BDCI2022-Web-Attack-Detection-and-Classification-master"的压缩包内，这通常包含了一个完整的项目结构，包括数据预处理、模型训练、特征工程、模型评估等各个环节的实现。以下将详细讨论相关知识点： 1. 数据集：此类任务的数据集通常由各种Web日志组成，可能包含正常请求和多种类型的攻击，如SQL注入、跨站脚本（XSS）、拒绝服务（DoS）等。数据预处理是关键步骤，涉及清洗、异常检测、归一化和特征提取。 2. 特征工程：为了使模型能够理解Web日志中的模式，必须从中提取有意义的特征。这可能包括HTTP请求头、请求方法、URL结构、参数、响应状态码等。特征选择和降维也是提高模型性能的关键。 3. 模型选择：多分类任务常使用的模型有决策树、随机森林、支持向量机、神经网络（如多层感知器、卷积神经网络、循环神经网络）和集成学习方法（如梯度提升机）。具体选择哪种模型取决于数据的特性、模型的解释性以及训练时间等因素。 4. 训练过程：模型训练涉及到损失函数的选择（如交叉熵）、优化器（如SGD、Adam）以及超参数调整（如学习率、批次大小、迭代次数）。此外，通常会采用交叉验证来评估模型性能并防止过拟合。 5. 评估指标：对于多分类问题，常用的评估指标有准确率、精确率、召回率、F1分数以及混淆矩阵。有时还会关注查准率-查全率曲线（Precision-Recall Curve）和ROC曲线。 6. 模型融合：为了进一步提升性能，参赛者可能会采用模型融合策略，如投票法、堆叠泛化等，将多个单模型的预测结果组合起来，以获得更稳定和准确的预测。 7. 应用与挑战：实际应用中，Web攻击检测系统需要实时性、可扩展性和低误报率。因此，模型的训练和优化不仅要考虑性能，还需要考虑这些实际需求。 8. 持续学习与改进：由于网络安全环境不断变化，模型可能需要定期更新和重新训练，以应对新的威胁。通过这个项目，我们可以了解到Web安全领域的挑战以及如何运用数据科学方法来解决这些问题。从源代码中，我们可以学习到数据处理、特征工程、模型选择和调优等一系列实践技能，这对于从事相关领域的开发者和研究者极具价值。

资源推荐

资源详情

资源评论

收起资源包目录

此仓库代码为本人参加的CCF-BDCI-2022赛道：Web攻击检测与分类识别(多分类任务)，比赛rank-23。队员：FurenXu.zip （53个子文件）

CCF-BDCI2022-Web-Attack-Detection-and-Classification-master

EDA

EDA.ipynb 760KB

data

train

目录遍历.csv 62.52MB

SQL注入.csv 46.42MB

XSS跨站脚本.csv 321KB

命令执行.csv 630KB

白.csv 994KB

远程代码执行.csv 2.93MB

test.zip 1.9MB

train.zip 22.64MB

test

test.csv 9.35MB

submit_example.csv 26KB

xgb-baseline

main_w2v.py 9KB

w2v.pkl 56.33MB

main0.py 7KB

main_keyword_feats.ipynb 19KB

main_w2v.ipynb 2.16MB

main_keyword_feats.py 10KB

main0_gridsearch.py 7KB

.idea

misc.xml 288B

inspectionProfiles

Project_Default.xml 17KB

profiles_settings.xml 174B

modules.xml 312B

deployment.xml 573B

Web攻击检测与分类识别.iml 317B

.gitignore 176B

deberta-baseline

main0.py 13KB

tricks.py 4KB

main0.ipynb 60KB

__pycache__

tricks.cpython-37.pyc 4KB

lgb-baseline

main2.py 7KB

main_url.py 10KB

main_body_url_nums.py 10KB

main_all.py 10KB

main_bodylen.py 10KB

main0.py 6KB

baseline-22-9-1.csv 26KB

baseline.ipynb 36KB

main1.py 6KB

main_url_and_len.py 10KB

main_bert.py 9KB

README.md 1KB

main_bodylen.csv 26KB

bert-baseline

main_bert_add_feats.py 16KB

inference_kfold.py 6KB

main0_kfold.ipynb 47KB

main0.py 13KB

inference.py 6KB

tricks.py 4KB

main0.ipynb 46KB

main0_kfold.py 13KB

bert_main.csv 26KB

__pycache__

tricks.cpython-37.pyc 4KB

README.md 1KB

# 2022 CCF Web攻击检测与分类识别赛道线上 94.7 baseline 分享 # 赛道链接： https://www.datafountain.cn/competitions/596 # 赛题背景：某业务平台平均每月捕获到Web攻击数量超过2亿，涉及常见注入攻击，代码执行等类型。传统威胁检测手段通过分析已知攻击特征进行规则匹配，无法检测未知漏洞或攻击手法。如何快速准确地识别未知威胁攻击并且将不同攻击正确分类，对提升Web攻击检测能力至关重要。利用机器学习和深度学习技术对攻击报文进行识别和分类已经成为解决该问题的创新思路，有利于推动AI技术在威胁检测分析场景的研究与应用。 # 赛题任务：参赛团队需要对前期提供的训练集进行分析，通过特征工程、机器学习和深度学习等方法构建AI模型，实现对每一条样本正确且快速分类，不断提高模型精确率和召回率。待模型优化稳定后，通过无标签测试集评估各参赛团队模型分类效果，以正确率评估各参赛团队模型质量。 # baseline 思路多分类问题，表格 + 文本类型的题目，可使用传统的 TFIDF 或者 BERT 等方式提取文本信息，结合特征工程来做。本 baseline 用了 TFIDF + 简单特征工程，五折 LGB 模型，线下 0.98，线上 94.7

评论收藏

内容反馈