没有合适的资源?快使用搜索试试~ 我知道了~
社交媒体平台中的白话差异:使用NLP模型BERT和LSTM来检测不同社交媒体平台上对话中的白话差异
共28个文件
ipynb:7个
json:6个
tsv:2个
需积分: 44 5 下载量 98 浏览量
2021-02-13
19:09:57
上传
评论
收藏 4.03MB ZIP 举报
温馨提示
信用 该存储库由ThilinaRajapakse派生而来,后者使用了HuggingFace PyTorch-Transformers库来使用UC Berkeley的信息与数据科学硕士计划。 特别是,该存储库将用于展示JJ Sahabu和George Tao在其W266 Final Project中的工作。 目的 该项目具有二进制文本分类功能,用于区分Twitter和Facebook数据。 该项目的目的是展示RoBERTa的简单用法,并将其与LSTM进行比较,并提供朴素的基线模型,以充分了解最新的自然语言处理模型的改进。 为了进行二进制文本分类,我们使用预处理的社交媒体文本数据微调了多个模型。 以下部分由ThilinaRajapakse撰写 高温高压变压器分类 该存储库基于库。 它是任何希望在文本分类任务中使用Transformer模型的人的起点。 请参阅此以获取有关该项目如何工作的更多信
资源推荐
资源详情
资源评论
收起资源包目录
Vernacular-Differences-in-Social-Media-Platforms-main.zip (28个子文件)
Vernacular-Differences-in-Social-Media-Platforms-main
RoBERTa Model
run_model.ipynb 20KB
data_prep.ipynb 2KB
args.json 694B
outputs
eval_results.txt 61B
vocab.json 878KB
tokenizer_config.json 35B
special_tokens_map.json 150B
added_tokens.json 2B
.gitattributes 56B
config.json 546B
merges.txt 446KB
training_args.bin 911B
data
dev.tsv 853KB
cached_train_roberta-base_128_binary 2.02MB
train.tsv 3.38MB
cached_dev_roberta-base_128_binary 2.19MB
data_download.sh 216B
utils.py 10KB
colab_quickstart.ipynb 45KB
LICENSE 11KB
LSTM & Naive Model
short_train.csv 3.4MB
Naive Model.ipynb 49KB
LSTM Training and Evaluation.ipynb 12KB
short_test.csv 859KB
README.md 10KB
Cleaning Facebook Data.ipynb 44KB
Cleaning Twitter Data.ipynb 30KB
Final Paper.pdf 167KB
共 28 条
- 1
资源评论
秦风明
- 粉丝: 25
- 资源: 4732
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功