# BERT-BiGCN & MSA-BiGCN
这个仓库是中山大学2022届本科生毕业论文《基于注意力机制和图卷积神经网络的多任务谣言检测》后续优化的代码实现。原论文的代码实现和baseline运行代码在master分支。
基于以前的工作:
1. 我们改为使用BERT做为编码器,获得词向量和句向量,随后接入BiGCN或Self-Attention以完成谣言检测和立场分类任务。
2. 我们重新整理了数据集,摒弃了旧repo中所有信息塞入JSON文件的做法,改用更规整,更直观的文件存储方式。
3. (TODO)我们将同步调整MSA-BiGCN的代码库,使其适配现在的数据集,采用和现模型相同的训练过程,以便比较。
### 仓库结构
```
MSA-BiGCN
├── BERT-BiGCN
├── MSA-BiGCN
├── README.md
├── datasets
│ ├── PHEME
│ └── semeval2017-task8
├── log // 可选,用于存放训练记录
├── model // 可选,用于存放模型文件
└── requirements.txt
```
### Python库依赖
Python版本`python >= 3.8 `
可通过一下指令安装依赖环境
```shell
$ pip install -r requirements.txt
```
### datasets
dataset文件中包含了[SemEval](https://alt.qcri.org/semeval2017/task8/index.php?id=data-and-tools)/[PHEME](https://figshare.com/articles/dataset/PHEME_dataset_for_Rumour_Detection_and_Veracity_Classification/6392078)处理后的数据集。其中PHEME数据集所有数据整合在`datasets/PHEME/all`目录下,SemEval数据集按照原数据集的任务分类分别整理在`data/semeval2017-task8/traindev`和`data/semeval2017-task8/test`内。以SemEval数据集为例,文件含义如下:
```
semeval2017-task8
├── README.md
├── getDataSet.ipynb // 处理数据集的代码
├── process.py // 处理数据集的代码
├── rumorCategory.json // 谣言检测的类别字典
├── stanceCategory.json // 立场分类的类别字典
├── test
│ ├── post_id.txt // 语料中post的id列表,每行存放一个post id
│ ├── post_label.txt // 每个post的立场标签,与post id一一对应,PHEME数据集没有此文件
│ ├── posts.json // 以"post_id: time, text"键值对存储的post信息
│ ├── structures.json // 以"thread_id: structure"键值对存储的thread传播树结构
│ ├── thread_id.txt // 语料中thread的id列表,每行存放一个thread id
│ └── thread_label.txt // 每个thread的立场标签,与thread id一一对应
├── traindev
│ ├── post_id.txt
│ ├── post_label.txt
│ ├── posts.json
│ ├── structures.json
│ ├── thread_id.txt
│ └── thread_label.txt
└── utils.py
```
### BERT-BiGCN
使用huggingface库提供的BERT接口实现嵌入功能的模型,详细更改参考目录下`README.md`。(尚未更新)
### MSA-BiGCN
使用glove词嵌入和Self-Attention实现词和文本的嵌入功能的模型版本,详细更改参考目录下`README.md`。(尚未更新)
程序员柳
- 粉丝: 8390
- 资源: 1469
最新资源
- RealtopNote 平板笔记文档
- 三菱FX3U三轴标准程序,包含轴点动,回零,相对与绝对定位, 整个项目的模块都有:主控程序,复位程序,手动,生产计数,只要弄明白这个程序,就可以非常了解整个项目的程序如何去编写,从哪里开始下手,可提供
- 基于Python Turtle模块的玫瑰花图形绘制实例
- 三菱M80系统PLC,T型图,系统一切都可以修,可以改 期待你的光临
- 台达Plc程序单轴标准点动,回零,相对,绝对定位控制模版,程序结构清晰明了,是学习与初次接触台达编程的好示例
- 使用Python Matplotlib与Numpy绘制3D动态玫瑰花数据可视化
- OBc车载充电器 3Kw OBC 车载充电器 含原理图、PC B图、C源代码、变压器参数等生产资料 附赠15kwdcdc模块资料 1、这款产品的方案采用的是dsp2803x系列 2、原理图
- Python中利用Matplotlib与Numpy绘制三维多彩玫瑰花模型
- 开关磁阻电机及其控制系统,三相6 4极,好东西不多,24V,100W
- MATLAB数据预测程序 人工智能算法:包括但不限于lstm神经网络,BP神经网络,RBF以及Elman等 传统经济学:ARIMA,GM灰色预测等均有 学习研究均可,具体效果视实验数据好坏二轮
- 各种模糊控制算法案例word+程序+建模过程 Fuzzy controller 自动控制理论 控制理论与应用 基于MATLAB Simulink搭建驾驶员制动意图识别模型,基于踏板位移和踏板速度,利
- 基于STM32F407 STM32H743芯片和SOEM的E therCAT主站源码 提供配套CUBE工程和 可配套正点原子探索者开发板使用,或任何带以太网口的407 H743板子 支持DC同步
- 基于SIFT特征和视觉词包模型的图像分类性能研究与实验 - 在Scene15数据集上的验证
- 细胞类型解卷积的新方法GTM-decon及其在癌症与糖尿病研究中的应用
- arduino 红绿灯代码
- 基于物理信息神经网络的完整结构拓扑优化框架及其应用
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈