#司法摘要
#1.摘要模型测评
Metric | Unigram |Bigram |LargestCommon|Weighted|
--------|------------|-------|------------|--------
Recall |0.26063| 0.12974| 0.25338
Precision | 0.58055| 0.25922| 0.57089
F1 |0.32617| 0.15634| 0.31789| 0.254926
#2.需求说明
目前司法大数据标注的数据共4047+9484=13531条,包含九种案由:'劳动合同', '侵权责任', '租赁合同', '借款合同', '继承', '追偿权', '借款', '侵权', '继承关系';对应法宝案由为:租赁合同、借款合同、劳动合同、继承、侵权责任、追偿权共计六种。
#3.摘要模型介绍
裁判文书是人民法院公开审判活动、裁判理由、裁判依据和裁判结果的重要载体。司法摘要则是对裁判文书的内容进行压缩、归纳和总结,反映案件审理过程中的裁判过程、事实、理由和判决依据等。裁判文书司法摘要对我国法治建设具有现实意义与必要性。CAIL2020设计了从裁判文书中提炼摘要的任务。
第一阶段从5月15日开始到7月14日,开放第一阶段数据集;从7月15日开始,开放二阶段数据集。第一阶段有4047条标注数据,第二阶段有9484条。
摘要模型分为三个组件,分别为段落提取、关键句提取和关键词提取。段落提取部分利用了文书中标志性词汇来定位不同段落的开始与结尾,例如原告段落常有“原告诉称”、“原告提出诉讼请求”和“提出诉讼”,或者“驳回原告提出诉讼请求”等规则文本;而原告结束段落常跟随者“被告辩称”、“被告答辩”以及“未做答辩”等规则文本。段落共有原告、查明、法院、判决四部分。
第二部分,关键句提取没有现成标注数据可用,因此,利用标注的摘要文本,根据标点符号分割成多个摘要句,利用这些摘要句在裁判文书全文句中查找BM25值最高的语句,标记为相似句,而全文中其他语句则标记为无关句。通过统计相似句与无关句的数量,两者数量比例为1:5。避免不平衡语料对训练模型的影响,因此对量少的语料复制4倍,进行了数据平衡处理。模型结构为首先利用RoBERTa-wwm-ext-Chinese[1]对句子进行编码,将最后两层隐含层合并后取最大值,再经遗忘层连接全连接层和Softmax层,模型的。关键句模型训练集含正负样本782895条,验证集42条,模型训练收敛后在验证集上的准确率为92.06%。
第三部分,关键词提取组件,同样地,需要自己构建标注数据,首先构建了全文关键句与摘要对,共13537条记录。本文对关键词的定义为经过BERT分词后,出现在摘要文本中,未出现在摘要中的词定义为可忽略。在预处理过程中,对关键句按照512为块进行拆分,不足512*80%的关键句进行舍弃,对于关键句长度小于512*80%的同样舍弃,对每个关键句块按照512进行填零补齐。关键词提取模型的输出层为512。模型结构为将BERT编码后的句子的后三层和第一层合并,后接入CapsuleNet中,最后接入全连接层。验证集有16条,训练10轮,学习率1E-3,梯度累计步数8,胶囊维度16,压缩胶囊数为128,开启胶囊网络的自适应动态路由,批大小为2。训练模型的验证集精度为60.53%。
模型集成介绍,首先输入的裁判文书经过断句生成数十个句子,经过段落提取后获得关键段落,再经过摘要关键句模型,过滤得到关键段落的关键句,最后经过关键词组件对关键句中的词进行过滤打分,保留高分词得到生成摘要。在利用关键词组件时,由于模型预测字重要性结果很少可以超过0.5,因此采用了TOPK方法对各个词的评分进行了过滤,在本文中选择了87.5%作为K参数,即选择句中评分最高的前87.5%个词作为关键词,组成摘要。
模型评价,本任务采用ROUGE(Recall-Oriented Understudy for Gisting Evaluation)评价评价。ROUGE指标将自动生成的摘要与参考摘要进行比较, 其中ROUGE-1衡量unigram匹配情况,ROUGE-2衡量bigram匹配,ROUGE-L记录最长的公共子序列。三者都只采用f-score,且总分的计算方式为:0.2*f-score(R1)+0.4*f-score(R2)+0.4*f-score(RL)。本文模型加权F1评分为25.49%。详细评分如图1所示:
#4.接口介绍
##4.1请求
###4.1.1请求方式:HTTP GET方式:
参数说明:1传gid,2传民事裁判文书全文
示例:
http://192.168.60.15:58082/z?1=guid&2=徐绍勤、徐艳华等与徐少清继承纠纷一审民事判决书\n辽宁省北镇市人民法院\n民 事 判 决 书\n(2017)辽0782民初2218号\n原告:徐绍勤,男,1951年7月12日生,满族,农民,住辽宁省北镇市。\n委托诉讼代理人:张凤林,系辽宁名崛律师事务所律师。\n原告:徐艳华,女,1959年3月8日生,满族,农民,住辽宁省北镇市。\n原告:徐艳秋,女,1967年8月8日生,满族,农民,住辽宁省北镇市。\n被告:徐少清,男,1956年4月4日生,满族,职工,住辽宁省北镇市。\n委托诉讼代理人:徐超(被告之子),住辽宁省北镇市北镇街道办事处正兰旗胡同19号。\n委托诉讼代理人:钱常惠,系北镇市北镇法律服务所法律工作者。\n原告徐绍勤、徐艳华、徐艳秋与被告徐少清继承纠纷一案,本院于2017年9月14日立案受理后,依法适用简易程序,公开开庭进行了审理。\n原、被告及委托诉讼代理人均到庭参加了诉讼。\n本案现已审理终结。\n原告徐绍勤向本院提出诉讼请求:1.请求继承父、母遗产房屋两间、存款4万元及利息,分割父亲的丧葬费、丧葬补助金137007元;\n2.要求被告承担诉讼费。\n事实和理由:原、被告均系徐世国、朱凌云的子女。\n父徐世国(北镇市城建局退休)、母朱凌云在北镇市万紫山社区两间民房居住。\n母亲2014年11月去世(未对母亲遗产进行继承),父亲由原、被告轮流照顾生活起居,2017年4月去世。\n父、母安葬费用均用父、母积蓄。\n父、母留下的两间平房(现已动迁,被告得一户住宅楼,富源城堡小区),银行存款4万元,均由被告占有。\n父亲去世的丧葬费、丧葬补助金137007元也由被告支取。\n原告徐艳华、徐艳秋(依法追加)称,父亲的遗嘱是真实的,听从法院判决。\n被告徐少清辩称,答辩人的母亲于2013年11月去世。\n答辩人母亲去世后,父亲由答辩人一人照顾生活起居至父亲去世,父亲去世时间是2017年5月。\n答辩人的母亲去世时,答辩人的父亲就将母亲的遗产(包括两间房屋的一半)进行了分割,给原、被告四人每人5000元。\n关于两间平房,现已动迁,答辩人的父亲遗嘱将两间平房给了答辩人。\n存款4万元及利息780元和丧抚费137007元确经答辩人手取出,但这些钱答辩人父亲在世的时候,因为答辩人一人独自照顾父亲的生活起居,答辩人的父亲亲口交待,除去用于丧葬之外剩余的钱,均归答辩人所有。\n本院经审理认定事实如下:原、被告均系被继承人徐世国、朱凌云的子女。\n二被继承人原在北镇市万紫山社区有两间民房,现已动迁,动迁后置换房屋还没有进行建设。\n被继承人朱凌云于2013年11月去世,当时原、被告父亲(被继承人徐世国)分给原、被告四人每人人民币5000元。\n其后被继承人徐世国主要由被告照顾生活起居,被继承人徐世国于2017年5月去世,被继承人徐世国去世后,由被告进行了发丧。\n被继承人徐世国生前留下自书遗嘱:”房子如有动迁,房子享楼由我二儿子由徐绍青继承。\n父徐世国。\n2016.1.24”。\n被继承人徐世国去世后,其银行存�
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
教育部认可的大学生竞赛备赛资料代码,源码,竞赛总结,所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通 全国电子设计大赛、全国大学生智能汽车竞赛、蓝桥杯、集成电路创新创业大赛、光电设计竞赛、挑战杯、大创项目、互联网+、三创赛、计算机设计竞赛、创新创业大赛、ACM-ICPC国际大学生程序设计竞赛、全国大学生数学建模竞赛、全国大学生电子商务“创新、创意及创业”挑战赛、全国大学生节能减排社会实践与科技竞赛、全国大学生工程训练综合能力竞赛、全国大学生机器人大赛-RoboMaster、RoboCon、“西门子杯”中国智能制造挑战赛、中国大学生计算机设计大赛、世界技能大赛、中国高校计算机大赛-大数据挑战赛、团体程序设计天梯赛、移动应用创新赛、网络技术挑战赛、全国大学生信息安全竞赛、“中国软件杯”大学生软件设计大赛、全国大学生光电设计竞赛、中国机器人及人工智能大赛、“大唐杯”全国大学生移动通信5G技术大赛、华为ICT大赛、全国大学生嵌入式芯片与系统设计竞赛、中国高校智能机器人创意大赛
资源推荐
资源详情
资源评论
收起资源包目录
竞赛资料源码-中国法研杯-司法人工智能挑战赛(CAIL2018-2020).zip (1596个子文件)
model_roberta_wwm_qa1_large.config 1KB
model_roberta_wwm_qa2_large.config 1KB
model_roberta_wwm_large.config 1KB
modelxs.config 1KB
default-ls.config 1KB
model_roberta3_large.config 1KB
model_roberta_wwm_qa.config 1KB
default.config 1KB
model_roberta_wwm.config 1KB
default-x.config 1KB
default.config 1KB
model_roberta3.config 1KB
default-gan.config 1KB
model_bert_wwm_ext.config 1KB
default-m.config 1KB
default-s.config 1KB
modely.config 1KB
model.config 1KB
model_bert_wwm.config 1KB
default-lm.config 1KB
models.config 1KB
default.config 1KB
modelx.config 1KB
model.config 1KB
comatch.config 1KB
default.config 987B
default.config 987B
train.csv 24.38MB
train.csv 24.38MB
train.csv 4.14MB
SMP-CAIL2020-train.csv 3.12MB
dev.csv 145KB
valid.csv 145KB
valid.csv 145KB
valid.csv 20KB
dev.csv 12KB
dev.csv 774B
typearticle.csv 102B
bert-epoch.csv 94B
generalarticle.csv 92B
WordNet-1.6.exc.db 624KB
WordNet-1.6.exc.db 624KB
WordNet-1.6.exc.db 624KB
WordNet-1.6.exc.db 624KB
WordNet-2.0.exc.db 288KB
WordNet-2.0.exc.db 288KB
WordNet-2.0.exc.db 288KB
WordNet-2.0.exc.db 288KB
nonbreaking_prefix.de 2KB
nonbreaking_prefix.de 2KB
contract.dic 29KB
amount_v1v2.dic 2KB
reason.dic 2KB
reason.dic 2KB
reason.dic 2KB
amount_2.dic 2KB
amount_v2.dic 2KB
amount.dic 810B
amount.dic 759B
generaltype-8.dic 142B
codetype-8.dic 133B
amount_3.dic 19B
Dockerfile 910B
Dockerfile 454B
Dockerfile 334B
Dockerfile 334B
Dockerfile 331B
Dockerfile 330B
Dockerfile 330B
Dockerfile 330B
Dockerfile 329B
Dockerfile 259B
Dockerfile 259B
Dockerfile 259B
Dockerfile 258B
Dockerfile 258B
民事摘要生成需求.docx 22KB
requirement.docx 16KB
nonbreaking_prefix.en 1KB
nonbreaking_prefix.en 1KB
noun.exc 109KB
noun.exc 109KB
verb.exc 81KB
verb.exc 81KB
noun.exc 37KB
noun.exc 37KB
verb.exc 37KB
verb.exc 37KB
adj.exc 22KB
adj.exc 22KB
adj.exc 20KB
adj.exc 20KB
adv.exc 85B
adv.exc 85B
adv.exc 85B
adv.exc 85B
.gitignore 2KB
.gitignore 1KB
.gitignore 1KB
.gitignore 1KB
共 1596 条
- 1
- 2
- 3
- 4
- 5
- 6
- 16
资源评论
妄北y
- 粉丝: 2w+
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功