自然语言处理_CCF大数据与计算智能大赛_面向数据安全治理的数据内容智能发现与分级分类.zip资源-CSDN文库

共45个文件

py：22个

pyc：19个

md：3个

需积分: 5 76 浏览量 2024-03-07 17:44:49 上传评论收藏 278KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

自然语言处理_CCF大数据与计算智能大赛_面向数据安全治理的数据内容智能发现与分级分类.zip （45个子文件）

NLP_CCF_competition-main

train_eval_ours.py 8KB

bert_pretrain

README.md 191B

run.py 1KB

pytorch_pretrained

convert_openai_checkpoint_to_pytorch.py 3KB

__init__.py 1KB

modeling_gpt2.py 31KB

modeling_transfo_xl_utilities.py 16KB

tokenization_gpt2.py 13KB

modeling_openai.py 37KB

optimization_openai.py 5KB

convert_transfo_xl_checkpoint_to_pytorch.py 6KB

file_utils.py 9KB

modeling.py 59KB

convert_gpt2_checkpoint_to_pytorch.py 3KB

optimization.py 13KB

__main__.py 4KB

modeling_transfo_xl.py 58KB

tokenization_openai.py 14KB

tokenization.py 17KB

tokenization_transfo_xl.py 22KB

__pycache__

optimization_openai.cpython-36.pyc 4KB

tokenization_transfo_xl.cpython-37.pyc 17KB

tokenization_openai.cpython-37.pyc 11KB

file_utils.cpython-37.pyc 7KB

modeling_gpt2.cpython-36.pyc 28KB

tokenization_openai.cpython-36.pyc 11KB

tokenization.cpython-36.pyc 12KB

tokenization_transfo_xl.cpython-36.pyc 17KB

modeling_transfo_xl_utilities.cpython-36.pyc 9KB

modeling_transfo_xl.cpython-36.pyc 41KB

tokenization_gpt2.cpython-37.pyc 11KB

tokenization_gpt2.cpython-36.pyc 11KB

__init__.cpython-37.pyc 2KB

tokenization.cpython-37.pyc 12KB

__init__.cpython-36.pyc 2KB

modeling.cpython-36.pyc 51KB

optimization.cpython-36.pyc 11KB

file_utils.cpython-36.pyc 7KB

modeling_openai.cpython-36.pyc 32KB

convert_tf_checkpoint_to_pytorch.py 3KB

utils_ours.py 5KB

result.csv 458KB

models

bert.py 2KB

README.md 2KB

THUCNews

README.md 132B

# 2020语言信息处理大作业面向数据安全治理的数据内容智能发现与分级分类代码实现（pytorch）[题目链接](https://www.datafountain.cn/competitions/471) ## 介绍本项目用于识别样本中的敏感数据，利用远程监督技术基于小样本构建文档分类分级文本库，并与BERT模型相结合，提取文本语义特征，构建具有较强泛化能力的文档分级分类模型，判断数据所属的类别以及级别。 ## 数据集 [数据集下载链接](https://www.datafountain.cn/competitions/471/datasets) 数据集包含如下数据： 1. 已标注数据labeled_data.csv：共7000篇文档，类别包含7类，分别为：财经、房产、家居、教育、科技、时尚、时政，每一类包含1000篇文档 2. 未标注数据unlabeled_data.csv：共33000篇文档 3. 分类分级测试数据test_data.csv：共20000篇文档，包含10个类别:财经、房产、家居、教育、科技、时尚、时政、游戏、娱乐、体育每个数据样本由id、class_label（仅有标签数据）、content三个字段组成，分别代表数据id，数据所属类别以及文本内容。文档类别与文档级别有如下对应关系： |文档类别class_label |文档级别rank_label| | ---- | ---- | |财经、时政 |高风险| |房产、科技 |中风险| |教育、时尚、游戏| 低风险| |家居、体育、娱乐| 可公开| 提交结果文件命名为“result.csv”，采用UTF-8统一编码，每个样本的预测结果包含id，class_label,rank_label三个字段。 ## 环境 - python 3 - pytorch 1.1 - csv - tqdm - sklearn - tensorboardX ## 预训练语言模型本项目使用BERT预训练模型，模型下载地址如下： bert_Chinese: [模型](https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-chinese.tar.gz) [词表]( https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-chinese-vocab.txt) [模型的网盘地址](https://pan.baidu.com/s/1qSAD5gwClq7xlgzl_4W3Pw) 下载后将对应文件（pytorch_model.bin， bert_config.json， vocab.txt）放在bert_pretain目录下即可。 ## 使用说明下载预训练模型，然后使用如下指令即可进行训练及测试： ```pyhton3.6 run.py``` 相关模型与参数均位于models目录下的bert.py文件里。

评论收藏

内容反馈