没有合适的资源?快使用搜索试试~ 我知道了~
BERT-LS:使用预编码器进行词汇简化
共98个文件
pyc:46个
py:37个
txt:6个
需积分: 12 0 下载量 201 浏览量
2021-05-23
18:52:40
上传
评论
收藏 13.4MB ZIP 举报
温馨提示
使用预编码器进行词汇简化 词汇简化(LS)的目的是用给定句子中的复杂单词替换为具有同等含义的简单单词。 最近,无监督的词汇简化方法仅依赖于复杂的单词本身,而不管给定的句子如何生成候选替换,这将不可避免地产生大量的虚假候选。 我们提出一种基于BERT的简单LS方法,该方法利用了预训练的无监督深度双向表示BERT。 我们将给定的句子(掩盖了复杂词)输入到BERT的掩盖语言模型中,以生成候选替换。 通过考虑整个句子,生成的更简单的替代方案更易于保持句子的衔接和连贯性。 实验结果表明,该方法在标准LS基准上取得了明显的改进。 预训练模型 (使用FastText训练的词嵌入) 如何执行这段程式码 我们建议使用Python 3.5或更高版本。 该模型是使用通过PyTorch 1.0.1实施的。 在这里,我们给出三个版本:LSBert1.0和LSBert2.0需要用句子和复杂的单词来进行私有化,rec
资源推荐
资源详情
资源评论
收起资源包目录
BERT-LS-master.zip (98个子文件)
BERT-LS-master
pytorch_pretrained_bert
file_utils.py 9KB
tokenization_transfo_xl.py 22KB
tokenization_openai.py 14KB
convert_openai_checkpoint_to_pytorch.py 3KB
tokenization_transfo_xl.pyc 22KB
modeling_openai.py 45KB
tokenization.py 18KB
__init__.pyc 2KB
modeling.pyc 72KB
convert_transfo_xl_checkpoint_to_pytorch.py 6KB
modeling_embedding_drouput.py 79KB
modeling.py 76KB
convert_tf_checkpoint_to_pytorch.py 3KB
readme 1B
tokenization.pyc 16KB
__init__.py 2KB
optimization_openai.py 5KB
tokenization_gpt2.py 14KB
optimization.py 13KB
convert_gpt2_checkpoint_to_pytorch.py 3KB
optimization.pyc 13KB
modeling_gpt2.py 45KB
__main__.py 4KB
modeling_openai.pyc 43KB
modeling_transfo_xl.py 59KB
modeling_transfo_xl_utilities.py 16KB
modeling_transfo_xl.pyc 51KB
optimization_openai.pyc 5KB
file_utils.pyc 10KB
__pycache__
modeling_transfo_xl.cpython-36.pyc 41KB
tokenization_gpt2.cpython-35.pyc 12KB
file_utils.cpython-36.pyc 7KB
__init__.cpython-35.pyc 2KB
modeling.cpython-35.pyc 65KB
tokenization_gpt2.cpython-36.pyc 11KB
optimization.cpython-35.pyc 11KB
tokenization.cpython-35.pyc 14KB
optimization_openai.cpython-35.pyc 4KB
tokenization_transfo_xl.cpython-35.pyc 19KB
modeling_openai.cpython-36.pyc 37KB
optimization_openai.cpython-36.pyc 4KB
modeling_transfo_xl.cpython-35.pyc 45KB
modeling_embedding_drouput.cpython-35.pyc 66KB
tokenization_transfo_xl.cpython-36.pyc 17KB
modeling_transfo_xl_utilities.cpython-35.pyc 10KB
modeling.cpython-36.pyc 62KB
optimization.cpython-36.pyc 11KB
modeling_embedding_drouput.cpython-36.pyc 63KB
modeling_openai.cpython-35.pyc 39KB
modeling_gpt2.cpython-36.pyc 36KB
modeling_gpt2.cpython-35.pyc 38KB
file_utils.cpython-35.pyc 8KB
tokenization_openai.cpython-35.pyc 12KB
__init__.cpython-36.pyc 2KB
tokenization_openai.cpython-36.pyc 11KB
modeling_transfo_xl_utilities.cpython-36.pyc 9KB
tokenization.cpython-36.pyc 13KB
modeling_gpt2.pyc 43KB
tokenization_gpt2.pyc 14KB
tokenization_openai.pyc 13KB
modeling_transfo_xl_utilities.pyc 11KB
run_LSBert2.sh 669B
LSBert2.py 28KB
run_LSBert1.sh 575B
complex_word.py 2KB
evaluator.py 4KB
recursive_simplification.txt 682B
hubconf.py 723B
helper_functions.py 3KB
verb
verb.txt 541KB
__init__.py 7KB
__pycache__
__init__.cpython-36.pyc 5KB
experiment.py 10KB
datasets
readme 1B
NNSeval.txt 58KB
BenchLS.txt 219KB
lex.mturk.txt 261KB
simplification.py 7KB
frequency_merge_wiki_child.txt 5.29MB
PPDB
word_dictionary.py 457B
__init__.py 120B
__pycache__
ppdb.cpython-36.pyc 3KB
part_of_speech.cpython-36.pyc 1KB
word_dictionary.cpython-36.pyc 967B
__init__.cpython-36.pyc 268B
part_of_speech.py 1KB
ppdb.py 3KB
LSBert1.py 28KB
README.md 5KB
SUBTLEX_frequency.xlsx 10.26MB
recursive_LSBert2.py 26KB
plural.py 13KB
labeler.py 25KB
BERT_LS.png 119KB
run_LSBert2_TS.sh 663B
Example1.png 93KB
read_xls.py 347B
conlleval.py 9KB
共 98 条
- 1
资源评论
胡説个球
- 粉丝: 25
- 资源: 4613
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功