# GPT2 for Chinese Summary
## 项目描述
- 本项目使用 GPT2-Chinese 的模型将wiki中文的数据导入模型训练了通用模型。
- 将GPT2-chitchat的对话任务稍作修改来适用于中文摘要任务。
- 将通用模型的权重应用在摘要问题上进行进一步训练的。
- GPT2-Chinese 参考:https://github.com/Morizeyao/GPT2-Chinese
- GPT2-chitchat参考:https://link.zhihu.com/?target=https%3A//github.com/yangjianxin1/GPT2-chitchat
- 项目工作流程详见:https://zhuanlan.zhihu.com/p/113869509
- 本项目为GPT2-chitchat稍作修改的内容,在此也感谢大佬的分享。
- 由于NLPCC的摘要数据为新闻语料,涉及话题和内容较多,应用在垂直领域下效果会好一些。
## 运行环境
python3.6、 transformers==2.1.1、pytorch==1.3.1
## 项目结构
- config:存放GPT2模型的参数的配置文件
- data
- train_with_summary.txt:默认的原始训练集文件,存放摘要语料
- train_tokenized.txt:对原始训练语料进行顺序tokenize之后的文件,用于model的训练
- summary_model:存放摘要生成的模型
- vocabulary:存放GPT2模型的字典
- train.py:训练代码
- interact.py:测试代码
## 模型参数(详见config/model_config_dialogue_small.json文件)
- initializer_range: 0.02
- layer_norm_epsilon: 1e-05
- n_ctx: 300
- n_embd: 768
- n_head: 12
- n_layer: 10
- n_positions: 300
- vocab_size: 13317
## Chinese Summary
Dialogue Model是基于GPT2模型的生成模型,对每条训练数据进行"顺序"拼接,然后将其输入到网络中,进行训练(该项目没有训练MMI Model的"逆序")
在训练Chinese Summary时,将上述训练数据进行如下拼接然后,将上述拼接结果作为Summary Model的输入,对模型进行训练
```python
[CLS]"四海网讯,近日,有媒体报道称:章子怡真怀孕了!报道还援引知情人士消息称,“章子怡怀孕大概四五个月,预产期是年底前后,现在已经不接工作了。”这到底是怎么回事?消息是真是假?针对此消息,23日晚8时30分,华西都市报记者迅速联系上了与章子怡家里关系极好的知情人士,这位人士向华西都市报记者证实说:“子怡这次确实怀孕了。她已经36岁了,也该怀孕了。章子怡怀上汪峰的孩子后,子怡的父母亲十分高兴。子怡的母亲,已开始悉心照料女儿了。子怡的预产期大概是今年12月底。”当晚9时,华西都市报记者为了求证章子怡怀孕消息,又电话联系章子怡的亲哥哥章子男,但电话通了,一直没有人<Paragraph>接听。有关章子怡怀孕的新闻自从2013年9月份章子怡和汪峰恋情以来,就被传N遍了!不过,时间跨入2015年,事情却发生着微妙的变化。2015年3月21日,章子怡担任制片人的电影《从天儿降》开机,在开机发布会上几张合影,让网友又燃起了好奇心:“章子怡真的怀孕了吗?”但后据证实,章子怡的“大肚照”只是影片宣传的噱头。过了四个月的7月22日,《太平轮》新一轮宣传,章子怡又被发现状态不佳,不时深呼吸,不自觉想捂住肚子,又觉得不妥。然后在8月的一天,章子怡和朋友吃饭,在酒店门口被风行工作室拍到了,疑似有孕在身!今年7月11日,汪峰本来在上海要举行演唱会,后来因为台风“灿鸿”取消了。而消息人士称,汪峰原来打算在演唱会上当着章子怡的面宣布重大消息,而且章子怡已经赴上海准备参加演唱会了,怎知遇到台风,只好延期,相信9月26日的演唱会应该还会有惊喜大白天下吧。"[SEP]"知情人透露章子怡怀孕后,父母很高兴。章母已开始悉心照料。据悉,预产期大概是12月底"[SEP]
```
## 模型分享
|模型 | 百度网盘 |模型描述|
|---------|--------|--------|
|GPT2-nlpcc-summary | 链接:https://pan.baidu.com/s/1atsbABI7Lq5HQNctC11E5g <br/>提取码:grtn |使用nlpcc的摘要数据基于GPT2-wiki训练的摘要模型|
|GPT2-wiki | 链接:https://pan.baidu.com/s/1oo1fpuGPYR9IMCcWQzzE9w <br/>提取码:o1aq <br/>复制这段内容后打开百度网盘手机App,操作更方便哦 |使用GPT2-Chinese训练的通用模型|
## 模型使用方法
##### 将GPT2-nlpcc-summary参数下载,放入summary_model文件夹中,运行即可。
为了直观展示,这里使用的交互式的预测形式,将需要预测的文章粘贴到控制台即可,由于中间的解码使用的是sampling的方式,所以每次生成的内容不能保证一致。可以多运行几次,取rouge得分最高的,该项目仅用于探索项目,若要实际项目中使用,还需重新训练通用模型和summary模型。
## 示例
```
发布日期:2015-04-19<Paragraph>17:36:34吉安市气象台2015年4月19日17时20分发布雷电黄色预警信号:预计未来6小时内,我市中部将有强雷电活动,局地可伴有短时强降水、雷雨大风等强对流天气,请注意加强防范。图例标准防御指南6小时内可能发生雷电活动,可能会造成雷电灾害事故。1、政府及相关部门按照职责做好防雷工作;2、密切关注天气,尽量避免户外活动。
summary:发布雷电黄色预警:预计未来6小时内,我市中部将有强雷电活动,局地可伴有短时强降水、雷雨大风等强对流天气,请注意加强防范。...
summary:组图:我市中部地区发布雷电黄色预警:预计未来6小时内,我市中部将有强雷电活动,局地可伴有短时强降水、雷雨大风等强对流天气,请注意加强防范。...
summary:组图:我市中部发布雷电黄色预警:预计未来6小时内,我市中部将有强雷电活动,局地可伴有短时强降水、雷雨大风...
summary:组图:我市中部发布雷电黄色预警:预计未来6小时内,我市中部将有强雷电活动,局地可伴有短时强降水、雷雨大风...
summary:组图:我市中部发布雷电黄色预警:预计未来6小时内,我市中部将有强雷电活动,局地可伴有短时强降水、雷雨大风...
```
```
台海网1月1日讯<Paragraph>据中评社报道,国民党12月31日下午在中常会听取副秘书长兼行管会主委林德瑞专案报告党产处理现况,合计党产总值约277亿元(新台币,下同;约54.1亿元人民币);外界质疑党产总值约为申报5倍,包括中国大陆、海通投资资产估计有1千亿以上,林德瑞表示,此纯属臆测,就目前中投公司所有财务资料,并无中国大陆投资,更无投资1千亿元以上。国民党12月31日中常会由代理主席吴敦义主持,林德瑞依指示提出党产现况报报,回应参选党主席补选的新北市长朱立伦日前提出说要处理不当党产及外界质欵马英九处理党产的成效;中常会后当晚文传会即将党产报告放置在官网“常会特稿”栏内,证明国民党处理党产光明磊落
summary:国民党濛月國日下午在中常会听取报告;外界质疑党产总值约为申报5倍
summary:外媒称党产总值约为申报5倍,外界质疑党产总值约为申报5倍,媒体称此次
summary:外媒称党产总值约为申报5倍,外界质疑党产总值约为申报5倍,媒体称此次报道为申报5倍,外界质疑党产总值约为申报5倍。
summary:外媒称党产总值约为申报5倍,外界质疑为申报5倍,外界质疑为申报5倍。
summary:外媒称党产总值约4倍,外界质疑为申报5倍,外界质疑为申报5倍,外界质疑为申报5倍。
```
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
本项目使用 GPT2-Chinese 的模型将wiki中文的数据导入模型训练了通用模型。 将GPT2-chitchat的对话任务稍作修改来适用于中文摘要任务。 将通用模型的权重应用在摘要问题上进行进一步训练的。 GPT2-Chinese 参考:https://github.com/Morizeyao/GPT2-Chinese GPT2-chitchat参考:https://link.zhihu.com/?target=https%3A//github.com/yangjianxin1/GPT2-chitchat 项目工作流程详见:https://zhuanlan.zhihu.com/p/113869509 本项目为GPT2-chitchat稍作修改的内容,在此也感谢大佬的分享。 由于NLPCC的摘要数据为新闻语料,涉及话题和内容较多,应用在垂直领域下效果会好一些。
资源推荐
资源详情
资源评论
收起资源包目录
基于GPT2的中文摘要生成模型 (109个子文件)
model_config_dialogue_small.json 175B
README.md 7KB
modeling_xlnet.py 80KB
tokenization_utils.py 68KB
modeling_bert.py 68KB
modeling_utils.py 68KB
modeling_auto.py 62KB
modeling_tf_xlnet.py 59KB
modeling_tf_auto.py 57KB
modeling_tf_bert.py 55KB
modeling_xlm.py 46KB
modeling_t5.py 43KB
modeling_transfo_xl.py 40KB
modeling_albert.py 39KB
modeling_tf_distilbert.py 38KB
modeling_tf_xlm.py 38KB
modeling_distilbert.py 38KB
modeling_tf_albert.py 37KB
modeling_tf_t5.py 37KB
pipelines.py 36KB
modeling_roberta.py 36KB
modeling_tf_transfo_xl.py 35KB
modeling_gpt2.py 33KB
modeling_tf_gpt2.py 31KB
tokenization_xlm.py 31KB
modeling_openai.py 30KB
modeling_tf_openai.py 29KB
modeling_tf_utils.py 29KB
squad_metrics.py 28KB
squad.py 27KB
modeling_ctrl.py 24KB
modeling_tf_ctrl.py 23KB
tokenization_bert.py 22KB
modeling_tf_roberta.py 22KB
tokenization_transfo_xl.py 21KB
modeling_mmbt.py 21KB
train.py 20KB
glue.py 19KB
modeling_xlm_roberta.py 18KB
modeling_encoder_decoder.py 18KB
modeling_camembert.py 17KB
convert_pytorch_checkpoint_to_tf2.py 16KB
file_utils.py 13KB
configuration_utils.py 13KB
modeling_transfo_xl_utilities.py 13KB
modeling_tf_pytorch_utils.py 13KB
utils.py 13KB
__init__.py 12KB
interact_mmi.py 12KB
configuration_auto.py 12KB
modelcard.py 11KB
optimization_tf.py 10KB
tokenization_albert.py 10KB
tokenization_auto.py 10KB
tokenization_gpt2.py 9KB
tokenization_bert_japanese.py 9KB
tokenization_xlnet.py 9KB
tokenization_xlm_roberta.py 9KB
tokenization_ctrl.py 8KB
interact.py 8KB
convert_roberta_original_pytorch_checkpoint_to_pytorch.py 8KB
modeling_tf_transfo_xl_utilities.py 8KB
tokenization_openai.py 8KB
tokenization_camembert.py 8KB
optimization.py 7KB
configuration_xlm.py 7KB
tokenization_roberta.py 7KB
tokenization_t5.py 7KB
configuration_bert.py 6KB
serving.py 6KB
user.py 6KB
convert.py 6KB
train.py 6KB
configuration_transfo_xl.py 6KB
hf_api.py 5KB
configuration_xlnet.py 5KB
configuration_gpt2.py 5KB
configuration_albert.py 5KB
convert_transfo_xl_original_tf_checkpoint_to_pytorch.py 5KB
configuration_ctrl.py 5KB
configuration_t5.py 4KB
convert_bert_pytorch_checkpoint_to_original_tf.py 4KB
configuration_openai.py 4KB
convert_xlnet_original_tf_checkpoint_to_pytorch.py 4KB
run.py 4KB
xnli.py 3KB
convert_xlm_original_pytorch_checkpoint_to_pytorch.py 3KB
__init__.py 3KB
configuration_distilbert.py 3KB
generate_dialogue_subset.py 3KB
tokenization_distilbert.py 3KB
convert_openai_original_tf_checkpoint_to_pytorch.py 3KB
convert_gpt2_original_tf_checkpoint_to_pytorch.py 2KB
convert_albert_original_tf_checkpoint_to_pytorch.py 2KB
convert_bert_original_tf_checkpoint_to_pytorch.py 2KB
convert_t5_original_tf_checkpoint_to_pytorch.py 2KB
configuration_xlm_roberta.py 2KB
configuration_roberta.py 2KB
configuration_mmbt.py 1KB
download.py 1KB
共 109 条
- 1
- 2
资源评论
- 扈涧盛2023-07-24份文件中的GPT2模型在中文摘要生成上表现出色,展示了其强大的语言处理能力。
- 小崔个人精进录2023-07-24份文件对于中文摘要生成具有很高的参考价值,可以为相关研究提供很好的基础。
- 臭人鹏2023-07-24文件提供了一种有效的方法来生成中文摘要,为相关领域的研究者提供了很好的工具。
- 半清斋2023-07-24篇文件通过GPT2模型成功实现了中文摘要生成,可谓功不可没。
- 狼You2023-07-24于中文摘要生成这个课题,该文件提供了一种创新的解决方案,值得借鉴。
plawuyue
- 粉丝: 0
- 资源: 9
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 机械设计双边工作自动裁断机非常好的设计图纸100%好用.zip
- 2023-04-06-项目笔记 - 第一百二十三阶段 - 4.4.2.121全局变量的作用域-121 -2024.05.04
- vmware官方下载地址
- CNN网络中关于数据预处理的三种方法
- yolov5网络结构图
- 2023-04-06-项目笔记 - 第一百二十三阶段 - 4.4.2.121全局变量的作用域-121 -2024.05.04
- C 语言期末大作业(学生成绩管理系统).docx
- pycharm-professional-2022.2.5
- 基于Flask的气象装备远程维修指导系统设计与实现.pdf
- 基于VMwarevSphere8.0的云平台分析与实现.pdf
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功