# BERT-BiGCN & MSA-BiGCN
这个仓库是中山大学2022届本科生毕业论文《基于注意力机制和图卷积神经网络的多任务谣言检测》后续优化的代码实现。原论文的代码实现和baseline运行代码在master分支。
基于以前的工作:
1. 我们改为使用BERT做为编码器,获得词向量和句向量,随后接入BiGCN或Self-Attention以完成谣言检测和立场分类任务。
2. 我们重新整理了数据集,摒弃了旧repo中所有信息塞入JSON文件的做法,改用更规整,更直观的文件存储方式。
3. (TODO)我们将同步调整MSA-BiGCN的代码库,使其适配现在的数据集,采用和现模型相同的训练过程,以便比较。
### 仓库结构
```
MSA-BiGCN
├── BERT-BiGCN
├── MSA-BiGCN
├── README.md
├── datasets
│ ├── PHEME
│ └── semeval2017-task8
├── log // 可选,用于存放训练记录
├── model // 可选,用于存放模型文件
└── requirements.txt
```
### Python库依赖
Python版本`python >= 3.8 `
可通过一下指令安装依赖环境
```shell
$ pip install -r requirements.txt
```
### datasets
dataset文件中包含了[SemEval](https://alt.qcri.org/semeval2017/task8/index.php?id=data-and-tools)/[PHEME](https://figshare.com/articles/dataset/PHEME_dataset_for_Rumour_Detection_and_Veracity_Classification/6392078)处理后的数据集。其中PHEME数据集所有数据整合在`datasets/PHEME/all`目录下,SemEval数据集按照原数据集的任务分类分别整理在`data/semeval2017-task8/traindev`和`data/semeval2017-task8/test`内。以SemEval数据集为例,文件含义如下:
```
semeval2017-task8
├── README.md
├── getDataSet.ipynb // 处理数据集的代码
├── process.py // 处理数据集的代码
├── rumorCategory.json // 谣言检测的类别字典
├── stanceCategory.json // 立场分类的类别字典
├── test
│ ├── post_id.txt // 语料中post的id列表,每行存放一个post id
│ ├── post_label.txt // 每个post的立场标签,与post id一一对应,PHEME数据集没有此文件
│ ├── posts.json // 以"post_id: time, text"键值对存储的post信息
│ ├── structures.json // 以"thread_id: structure"键值对存储的thread传播树结构
│ ├── thread_id.txt // 语料中thread的id列表,每行存放一个thread id
│ └── thread_label.txt // 每个thread的立场标签,与thread id一一对应
├── traindev
│ ├── post_id.txt
│ ├── post_label.txt
│ ├── posts.json
│ ├── structures.json
│ ├── thread_id.txt
│ └── thread_label.txt
└── utils.py
```
### BERT-BiGCN
使用huggingface库提供的BERT接口实现嵌入功能的模型,详细更改参考目录下`README.md`。(尚未更新)
### MSA-BiGCN
使用glove词嵌入和Self-Attention实现词和文本的嵌入功能的模型版本,详细更改参考目录下`README.md`。(尚未更新)
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
中山大学2022年本科生论文“基于注意机制和图卷积神经网络的多任务谣言检测”的代码实现和基线代码。使用BERT作为编码器实现了一个新模型——MSA BiGCN.zip (76个子文件)
MSA-BiGCN-dev
MSA-BiGCN
utils.py 337B
rumorDataset.py 10KB
plot.ipynb 65KB
codetest.ipynb 5KB
trainOnlyStance.py 12KB
trainOnlyRumor.py 13KB
data.py 6KB
ABGCN.py 8KB
getbash.py 5KB
MSABiGCN.py 17KB
result.ipynb 2.67MB
semeval2017-8-test.ipynb 7KB
train.py 16KB
requirements-version.txt 1KB
LICENSE 11KB
datasets
PHEME
utils.py 376B
rumorCategory.json 74B
convert_veracity_annotations.py 2KB
process.py 4KB
all
thread_label.txt 13KB
post_id.txt 1.9MB
posts.json 18.24MB
structures.json 5.4MB
thread_id.txt 119KB
category.json 74B
README.md 1003B
getDataset.ipynb 5KB
PHEME-stance
utils.py 376B
rumorCategory.json 74B
convert_veracity_annotations.py 2KB
process.py 4KB
all
post_label.txt 204KB
thread_label.txt 13KB
post_id.txt 1.9MB
posts.json 18.24MB
structures.json 5.4MB
thread_id.txt 119KB
category.json 74B
README.md 2KB
stanceCategory.json 69B
getDataset.ipynb 13KB
semeval2017-task8
utils.py 717B
getDataSet.ipynb 9KB
rumorCategory.json 54B
process.py 7KB
traindev
post_label.txt 9KB
thread_label.txt 594B
post_id.txt 84KB
posts.json 794KB
structures.json 244KB
thread_id.txt 6KB
test
post_label.txt 2KB
thread_label.txt 56B
post_id.txt 19KB
posts.json 154KB
structures.json 27KB
thread_id.txt 532B
README.md 1KB
stanceCategory.json 69B
requirements.txt 109B
.gitignore 2KB
README.md 3KB
BERT-BiGCN
utils.py 501B
rumorDataset.py 10KB
BiGCN.py 3KB
test.ipynb 5KB
plot.ipynb 65KB
codetest.ipynb 5KB
trainOnlyStance.py 12KB
trainOnlyRumor.py 14KB
getbash.py 5KB
result.ipynb 2.67MB
semeval2017-8-test.ipynb 7KB
train.py 19KB
BertBiGCN.py 12KB
中山大学2022届本科生毕业论文《基于注意力机制和图卷积神经网络的多任务谣言检测》代码实现和baseline代码。现采用BERT作为编码器,实现了新的模型。_MSA-BiGCN
项目内附说明
如果解压失败请用ara软件解压.txt 42B
共 76 条
- 1
资源评论
好家伙VCC
- 粉丝: 2062
- 资源: 9145
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功