[演示视频](https://www.iqiyi.com/v_19rxoxbkhk.html#curid=16678996500_b4cdcb4320cdfae5f480487b73576efb)
项目的深度学习代码基于[GPT-2 Chinese](https://github.com/Morizeyao/GPT2-Chinese)项目。
安装方法:
请先于NVIDIA官网下载
0) 显卡驱动
1) CUDA 10.1
2) cuDNN 7.6.5 for CUDA 10.1
之后,在Windows Terminal中将工作路径跳转到gpt-2 chinese目录下输入pip install -r requirements.txt
本人在几乎对GPT-2没有改动的前提下,为该项目添加了bat脚本:
0) train.bat 训练脚本
1) generate.bat 生成脚本
可以根据自己的需要调整bat脚本
# -语料库-
如果您想使用我们的语料库,可以在[网盘链接](https://pan.baidu.com/s/1LcHMtyhUEqpGa46bA1aDTg)(提取码:9k3e)下载语料库。语料库包含:
0) 已经转换为GPT-2 Chinese要求的JSON格式的《最终幻想14》截至5.1版本的剧本
1) 已经转换为GPT-2 Chinese要求的JSON格式的《少女前线》截至4月1日的剧本
2) 尚未转换为GPT-2 Chinese要求的JSON格式的《Fate/Grand Order》1.0的剧本
爬取和整合数据的方式可以参考文件夹“Spider”中的Python脚本
# -模 型-
本人使用了[散文语料](https://github.com/Morizeyao/GPT2-Chinese)预模型、[百度贴吧语料](https://github.com/brightmart/nlp_chinese_corpus)预模型训练了一些可以生成《最终幻想14》风格剧本和《少女前线》风格剧本的模型,如果有需要可以通过[网盘链接](https://pan.baidu.com/s/1xXD8JPS4ibdweMUhu3AwOA)(提取码:uu7p)下载。
没有合适的资源?快使用搜索试试~ 我知道了~
该项目可以根据用户给出的上文自动生成下文 该项目是本人的本科毕业设计。项目主要基于GPT-2 Chinese实现。
共31个文件
py:12个
txt:6个
json:4个
需积分: 5 1 下载量 178 浏览量
2024-05-11
20:50:00
上传
评论
收藏 496KB ZIP 举报
温馨提示
GPT, 通常指的是“Generative Pre-trained Transformer”(生成式预训练转换器),是一个在自然语言处理(NLP)领域非常流行的深度学习模型架构。GPT模型由OpenAI公司开发,并在多个NLP任务上取得了显著的性能提升。 GPT模型的核心是一个多层Transformer解码器结构,它通过在海量的文本数据上进行预训练来学习语言的规律。这种预训练方式使得GPT模型能够捕捉到丰富的上下文信息,并生成流畅、自然的文本。 GPT模型的训练过程可以分为两个阶段: 预训练阶段:在这个阶段,模型会接触到大量的文本数据,并通过无监督学习的方式学习语言的结构和规律。具体来说,模型会尝试预测文本序列中的下一个词或短语,从而学习到语言的语法、语义和上下文信息。 微调阶段(也称为下游任务训练):在预训练完成后,模型会被应用到具体的NLP任务中,如文本分类、机器翻译、问答系统等。在这个阶段,模型会使用有标签的数据进行微调,以适应特定任务的需求。通过微调,模型能够学习到与任务相关的特定知识,并进一步提高在该任务上的性能。 GPT模型的优势在于其强大的生成能力和对上下文信息的捕捉能力。这使得GPT模型在自然语言生成、文本摘要、对话系统等领域具有广泛的应用前景。同时,GPT模型也面临一些挑战,如计算资源消耗大、训练时间长等问题。为了解决这些问题,研究人员不断提出新的优化方法和扩展模型架构,如GPT-2、GPT-3等,以进一步提高模型的性能和效率。
资源推荐
资源详情
资源评论
收起资源包目录
该项目可以根据用户给出的上文自动生成下文 该项目是本人的本科毕业设计。项目主要基于GPT-2 Chinese实现。本人的工作主要是用新的语料库进行了几次训练,得出来了一个还凑合的模型。该项目已经初步完成,不再进行进一步的更新。.zip (31个子文件)
content
spider
FF14Wiki_Spider.py 6KB
Formater.py 2KB
girlsfront_Spider.py 2KB
eval.py 8KB
LICENSE 1KB
cache
vocab_guwen.txt 127KB
vocab_seg.txt 374KB
vocab_all.txt 84KB
make_vocab.sh 114B
make_vocab.py 1KB
vocab_small.txt 61KB
vocab.txt 107KB
generate.py 10KB
tokenizations
encoder.json 26B
vocab.bpe 21B
tokenization_bert_word_level.py 20KB
tokenization_bert.py 19KB
bpe_tokenizer.py 4KB
thulac_dict
seg 30B
__pycache__
bpe_tokenizer.cpython-37.pyc 5KB
tokenization_bert.cpython-37.pyc 15KB
generate.bat 196B
requirements.txt 76B
train.bat 214B
generate_texts.py 9KB
train_single.py 10KB
train.py 12KB
README.md 2KB
config
model_config.json 175B
model_config_small.json 175B
model_config_test.json 169B
共 31 条
- 1
资源评论
生瓜蛋子
- 粉丝: 3824
- 资源: 5235
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功