# "中国法研杯"司法人工智能挑战赛
## 一、简介
法律智能旨在赋予机器阅读理解法律文本与定量分析案例的能力,完成罪名预测、法律条款推荐、刑期预测等具有实际应用需求的任务,有望辅助法官、律师等人士更加高效地进行法律判决。近年来,以深度学习和自然语言处理为代表的人工智能技术取得巨大突破,也开始在法律智能领域崭露头角,受到学术界和产业界的广泛关注。
为了促进法律智能相关技术的发展,在最高人民法院信息中心、共青团中央青年发展部的指导下,中国司法大数据研究院、中国中文信息学会、中电科系统团委联合清华大学、北京大学、中国科学院软件研究所共同举办“2018中国‘法研杯’法律智能挑战赛([CAIL2018](http://180.76.238.177))”。挑战赛将提供海量的刑事法律文书数据作为数据集,旨在为研究者提供学术交流平台,推动语言理解和人工智能领域技术在法律领域的应用,促进法律人工智能事业的发展。每年比赛结束后将举办技术交流和颁奖活动。诚邀学术界和工业界的研究者和开发者积极参与该挑战赛!
## 二、任务说明
### 2.1 介绍
* 任务一(罪名预测):根据刑事法律文书中的案情描述和事实部分,预测被告人被判的罪名;
* 任务二(法条推荐):根据刑事法律文书中的案情描述和事实部分,预测本案涉及的相关法条;
* 任务三(刑期预测):根据刑事法律文书中的案情描述和事实部分,预测被告人的刑期长短。
参赛者可选择一个或者多个任务参与挑战赛。同时,为了鼓励参赛者参与到更多的任务中,组委会将单独奖励参与更多任务的参赛者。
### 2.2 数据介绍
本次挑战赛所使用的数据集是来自“[中国裁判文书网](http://wenshu.court.gov.cn/)”公开的刑事法律文书,其中每份数据由法律文书中的案情描述和事实部分组成,同时也包括每个案件所涉及的法条、被告人被判的罪名和刑期长短等要素。
数据集共包括`268万刑法法律文书`,共涉及[202条罪名](meta/accu.txt),[183条法条](meta/law.txt),刑期长短包括**0-25年、无期、死刑**。
我们将先后发布CAIL2018-Small和CAIL2018-Large两组数据集。CAIL2018-Small包括19.6万份文书样例,直接在该网站发布,包括15万训练集,1.6万验证集和3万测试集。这部分数据可以[注册下载](http://cail.cipsc.org.cn),供参赛者前期训练和测试。
比赛开始2-3周后(具体时间请关注比赛新闻),我们将通过网络下载向有资格的参赛队伍定向发布CAIL2018-Large数据集,包括150万文书样例。最后,剩余90万份文书将作为第一阶段的测试数据CAIL2018-Large-test。
#### 2.2.1 字段及意义
数据利用json格式储存,每一行为一条数据,每条数据均为一个字典。
* **fact**: 事实描述
* **meta**: 标注信息,标注信息中包括:
* **criminals**: 被告(数据中均只含一个被告)
* **punish\_of\_money**: 罚款(单位:元)
* **accusation**: 罪名
* **relevant\_articles**: 相关法条
* **term\_of\_imprisonment**: 刑期
刑期格式(单位:月)
* **death\_penalty**: 是否死刑
* **life\_imprisonment**: 是否无期
* **imprisonment**: 有期徒刑刑期
```
这里是简单的一条数据展示:
{
"fact": "2015年11月5日上午,被告人胡某在平湖市乍浦镇的嘉兴市多凌金牛制衣有限公司车间内,与被害人孙某因工作琐事发生口角,后被告人胡某用木制坐垫打伤被害人孙某左腹部。经平湖公安司法鉴定中心鉴定:孙某的左腹部损伤已达重伤二级。",
"meta":
{
"relevant_articles": [234],
"accusation": ["故意伤害"],
"criminals": ["段某"],
"term_of_imprisonment":
{
"death_penalty": false,
"imprisonment": 12,
"life_imprisonment": false
}
}
}
```
### 2.3 评价方法
本次挑战赛使用的数据集均为来自中国裁判文书网上的刑事法律文书,标准答案是案件的判决结果。我们提供了评测时使用的评分程序共选手使用,评测方法、环境和模型提交说明请看[链接](https://github.com/thunlp/CAIL2018)
每项任务满分100分,下面将对三项任务的评价方法分别进行说明:
#### 2.3.1 任务一、任务二
任务一(罪名预测)、任务二(法条推荐)两项任务将采用分类任务中的微平均F1值(Micro-F1-measure)和宏平均F1值(Macro-F1-measure)作为评价指标,其计算方式为:
![f1](pic/f1.png)
则任务的最终分数为:
![score1](pic/score_1.png)
#### 2.3.2 任务三
任务三(刑期预测)将采用下列公式,根据预测出的刑期与案件标准刑期之间的差值距离作为评价指标。设预测出的刑期为`lp`,标准答案为`la`,则
![v](pic/v.png)
```
若v≤0.2,则score=1;
若0.2<v≤0.4,则score=0.8
……
以此类推。
```
**特殊的情况**
若案件刑期的标准答案为**死刑**则`lp=-2`, **无期**则`lp=-1`,才计分。具体请见[评测部分源码](https://github.com/thunlp/CAIL2018/blob/a258c1dae88e8fc576529e6dcb012a430da00b95/judger/judger.py#L90)。
最后,将任务三所有测试点的分数相加并除以测试点总数乘以100作为任务三的评价得分:
![score3](pic/score_3.png)
#### 2.3.3 三项任务总分的计算方式
每个任务的满分均为100,则总分为:
![score_all](pic/score_all.png)
### 2.4 基线系统
竞赛组织方提供了一个开源的针对不同任务的基线系统([LibSVM](https://github.com/thunlp/CAIL2018/tree/master/baseline))。
## 三、我的解决方案
### 3.1 [BiDAF模型](https://github.com/jingyihiter/mycail/tree/master/mycail)应用于文本分类任务
![BiDAF+self attention模型](pic/BiDAF.png)
#### 3.1.1 BiDAF+全连接网络+max-pooling用于罪名的分类[详情](https://github.com/jingyihiter/mycail/tree/master/mycail/tfcode/model_v0)
#### 3.1.2 分类任务转成机器阅读理解任务[详情](https://github.com/jingyihiter/mycail/tree/master/mycail/tfcode/model_v1)
### 3.2 [文本分类模型](https://github.com/jingyihiter/mycail/tree/master/ai_law)
- TextCNN [textcnn](https://github.com/jingyihiter/mycail/blob/master/ai_law/HAN_train_textcnn.py)
- Deep Pyramid CNN [dpcnn](https://github.com/jingyihiter/mycail/blob/master/ai_law/HAN_train_dpcnn.py)
- Hierarchical Attention Network [han](https://github.com/jingyihiter/mycail/blob/master/ai_law/HAN_train_han.py)
- c_GRU [c_gru](https://github.com/jingyihiter/mycail/blob/master/ai_law/HAN_train_cgru.py)
## 线上python3.5系统环境
```
Package Version
------------------- ----------------------
absl-py 0.2.0
astor 0.6.2
bleach 1.5.0
boto 2.48.0
boto3 1.7.19
botocore 1.10.19
bz2file 0.98
certifi 2018.4.16
chardet 3.0.4
cycler 0.10.0
Cython 0.28.2
docutils 0.14
fasttext 0.8.3
future 0.16.0
gast 0.2.0
gensim 3.4.0
grpcio 1.11.0
h5py 2.7.1
html5lib 0.9999999
idna 2.6
jieba 0.39
jmespath 0.9.3
JPype1 0.6.3
Keras
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
教育部认可的大学生竞赛备赛资料代码,源码,竞赛总结,所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通 全国电子设计大赛、全国大学生智能汽车竞赛、蓝桥杯、集成电路创新创业大赛、光电设计竞赛、挑战杯、大创项目、互联网+、三创赛、计算机设计竞赛、创新创业大赛、ACM-ICPC国际大学生程序设计竞赛、全国大学生数学建模竞赛、全国大学生电子商务“创新、创意及创业”挑战赛、全国大学生节能减排社会实践与科技竞赛、全国大学生工程训练综合能力竞赛、全国大学生机器人大赛-RoboMaster、RoboCon、“西门子杯”中国智能制造挑战赛、中国大学生计算机设计大赛、世界技能大赛、中国高校计算机大赛-大数据挑战赛、团体程序设计天梯赛、移动应用创新赛、网络技术挑战赛、全国大学生信息安全竞赛、“中国软件杯”大学生软件设计大赛、全国大学生光电设计竞赛、中国机器人及人工智能大赛、“大唐杯”全国大学生移动通信5G技术大赛、华为ICT大赛、全国大学生嵌入式芯片与系统设计竞赛、中国高校智能机器人创意大赛
资源推荐
资源详情
资源评论
收起资源包目录
竞赛资料源码-中国法研杯-司法人工智能挑战赛.zip (444个子文件)
activate.bat 642B
deactivate.bat 389B
sysconfig.cfg 3KB
pyvenv.cfg 84B
python35.dll 3.74MB
tk86t.dll 1.88MB
tcl86t.dll 1.58MB
ucrtbase.dll 960KB
sqlite3.dll 756KB
msvcp140.dll 625KB
vccorlib140.dll 385KB
xlwings64.dll 336KB
concrt140.dll 327KB
xlwings32.dll 270KB
vcomp140.dll 181KB
vcruntime140.dll 87KB
api-ms-win-crt-private-l1-1-0.dll 69KB
api-ms-win-crt-math-l1-1-0.dll 27KB
api-ms-win-crt-multibyte-l1-1-0.dll 26KB
api-ms-win-crt-string-l1-1-0.dll 24KB
api-ms-win-crt-stdio-l1-1-0.dll 24KB
api-ms-win-crt-runtime-l1-1-0.dll 23KB
api-ms-win-crt-convert-l1-1-0.dll 22KB
api-ms-win-core-file-l1-1-0.dll 22KB
api-ms-win-core-localization-l1-2-0.dll 21KB
api-ms-win-crt-time-l1-1-0.dll 21KB
api-ms-win-core-processthreads-l1-1-0.dll 20KB
api-ms-win-crt-filesystem-l1-1-0.dll 20KB
api-ms-win-core-synch-l1-1-0.dll 20KB
api-ms-win-crt-process-l1-1-0.dll 19KB
api-ms-win-core-processenvironment-l1-1-0.dll 19KB
api-ms-win-crt-heap-l1-1-0.dll 19KB
api-ms-win-core-sysinfo-l1-1-0.dll 19KB
api-ms-win-crt-conio-l1-1-0.dll 19KB
api-ms-win-core-synch-l1-2-0.dll 19KB
api-ms-win-core-console-l1-1-0.dll 19KB
api-ms-win-core-processthreads-l1-1-1.dll 19KB
api-ms-win-core-memory-l1-1-0.dll 19KB
api-ms-win-core-rtlsupport-l1-1-0.dll 19KB
api-ms-win-core-heap-l1-1-0.dll 19KB
api-ms-win-crt-utility-l1-1-0.dll 19KB
api-ms-win-crt-locale-l1-1-0.dll 19KB
api-ms-win-crt-environment-l1-1-0.dll 19KB
api-ms-win-core-libraryloader-l1-1-0.dll 19KB
api-ms-win-core-interlocked-l1-1-0.dll 18KB
api-ms-win-core-file-l2-1-0.dll 18KB
api-ms-win-core-debug-l1-1-0.dll 18KB
api-ms-win-core-timezone-l1-1-0.dll 18KB
api-ms-win-core-errorhandling-l1-1-0.dll 18KB
api-ms-win-core-file-l1-2-0.dll 18KB
api-ms-win-core-util-l1-1-0.dll 18KB
api-ms-win-core-namedpipe-l1-1-0.dll 18KB
api-ms-win-core-string-l1-1-0.dll 18KB
api-ms-win-core-datetime-l1-1-0.dll 18KB
api-ms-win-core-handle-l1-1-0.dll 18KB
api-ms-win-core-profile-l1-1-0.dll 18KB
setuptools-28.8.0-py3.5.egg 454KB
t64.exe 96KB
w64.exe 92KB
t32.exe 87KB
w32.exe 84KB
pip3.5.exe 73KB
pip.exe 73KB
easy_install.exe 73KB
pip3.exe 73KB
easy_install-3.5.exe 73KB
python.exe 34KB
pythonw.exe 34KB
mycail.iml 440B
data_train_sample.json 4.32MB
data_valid_sample.json 1.15MB
data_test_sample.json 1.14MB
readme.md 10KB
readme.md 2KB
desc.md 957B
readme.md 515B
readme.md 238B
readme.md 107B
not-zip-safe 1B
cacert.pem 337KB
PKG-INFO 3KB
BiDAF.png 131KB
f1.png 97KB
han.png 55KB
dpcnn.png 45KB
textcnn.png 35KB
score_all.png 12KB
score_1.png 11KB
score_3.png 11KB
v.png 9KB
Activate.ps1 1KB
easy-install.pth 52B
setuptools.pth 30B
pyparsing.py 219KB
html5parser.py 114KB
__init__.py 101KB
tarfile.py 90KB
constants.py 81KB
big5freq.py 81KB
ipaddress.py 78KB
共 444 条
- 1
- 2
- 3
- 4
- 5
资源评论
妄北y
- 粉丝: 1w+
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功