<!--
* @Author: lihaitao
* @Date: 2023-05-16 19:48:12
* @LastEditors: Do not edit
* @LastEditTime: 2023-05-24 19:34:27
* @FilePath: /lht/GitHub_code/LexiLaw/README.md
-->
# LexiLaw - 中文法律大模型
欢迎来到 LexiLaw 项目!这个项目旨在提供专业的中文法律咨询服务,并分享在大模型在垂直领域微调的经验,以帮助社区开发更多优质的专用领域的大模型。
我会继续研究成文法和判例法体系的智慧司法研究,欢迎大家follow我关注最新动态,欢迎大家有新的想法与我交流!
🔥为类案检索设计的结构感知预训练语言模型[SAILER](https://github.com/CSHaitao/SAILER)已被SIGIR2023录用并开源!
🔥[Awesome-LegalAI-Resources](https://github.com/CSHaitao/Awesome-LegalAI-Resources)整理了Legal-AI领域相关资源,方便大模型训练与评估。
## 免责声明
请各位严格遵守如下约定:
1. 本项目任何资源**仅供学术研究使用,严禁任何商业用途**。
2. 模型输出受多种不确定性因素影响,本项目当前无法保证其准确性,**严禁用于真实法律场景**。
3. 本项目不承担任何法律责任,亦不对因使用相关资源和输出结果而可能产生的任何损失承担责任。
## 项目简介
LexiLaw 是一个经过微调的中文法律大模型,它基于 ChatGLM-6B 架构,通过在法律领域的数据集上进行微调,使其在提供法律咨询和支持方面具备更高的性能和专业性。
该模型旨在为法律从业者、学生和普通用户提供准确、可靠的法律咨询服务。无论您是需要针对具体法律问题的咨询,还是对法律条款、案例解析、法规解读等方面的查询,LexiLaw 都能够为您提供有益的建议和指导。
同时,我们将分享在大模型基础上微调的经验和最佳实践,以帮助社区开发更多优秀的中文法律大模型,推动中文法律智能化的发展。
## 功能和特点
- **专业法律知识**:LexiLaw 经过在大规模法律数据集上的微调,拥有丰富的中文法律知识和理解能力,能够回答各类法律问题。
- **法律咨询服务**:通过与 LexiLaw 进行交互,您可以提出具体的法律问题,模型将根据您的输入提供详细和准确的回答,为您提供法律咨询和支持。
- **广泛应用场景**:LexiLaw 适用于各种法律领域,包括但不限于合同法、劳动法、知识产权、民事诉讼、刑事法等。无论您是法律从业者、学生还是需要法律帮助的个人,我们都希望通过这个模型为您提供有价值的支持。
- **经验分享**:我们将分享在大模型微调方面的经验和最佳实践,帮助社区的开发者们更好地构建和微调中文法律大模型,推动法律智能化的进步。
- **持续更新**:我们会不断更新和改进模型,以确保它与最新的法律发展和变化保持同步。您可以定期获取最新的模型版本和更新内容。
## 如何使用
- ***命令行交互***
1. 克隆或下载本项目到您的本地环境。
```
git clone https://github.com/CSHaitao/LexiLaw.git
cd LexiLaw
```
2. 安装所需的依赖项和配置环境。
```
pip install -r requirements.txt
```
3. 下载训练好的参数放在`/model`目录下。每种方法只开源了一个checkpoint。后续会陆续开源其他checkpoint供大家研究。
- [LexiLaw_finetune](https://drive.google.com/file/d/1buUUNjEVhx8PU1eBus3KitJzI5pdWbW_/view?usp=sharing):包含pytorch_model-00001-of-00002.bin和pytorch_model-00002-of-00002.bin两个文件,其他配置文件与ChatGLM一致。[百度网盘链接](https://pan.baidu.com/s/12akBgZMlFUJ9NK-HIZh5uA?pwd=nmjp)(提取码: nmjp)
- [LexiLaw_Ptuningv2](https://drive.google.com/file/d/1sTh_7DMsX9Cj95O7k1gfsYxB7d1d8soQ/view?usp=sharing):包含pytorch_model.bin。
- [LexiLaw_LoRA](https://drive.google.com/file/d/1p9kf1GCeaf1AzSv6ZyzEBO3DTgKDetHI/view?usp=sharing):包含adapter_model.bin和adapter_config.json两个文件。
4. 运行`python inference_method.py`,通过与模型进行交互,提供具体的法律问题或相关法律文本,LexiLaw 将根据您的输入提供相应的回答和解释。
![image](./figure/code.png)
- ***Demo交互***
除了简单的命令行交互,我们参考[Chinese-LangChain](https://github.com/yanqiangmiffy/Chinese-LangChain)实现了知识库增强的LexiLaw。
1. 克隆或下载本项目到您的本地环境。
```
git clone https://github.com/CSHaitao/LexiLaw.git
cd LexiLaw/demo
```
2. 安装所需的依赖项和配置环境。
```
pip install -r requirements.txt
```
3. 下载训练好的参数放在`/model`目录下。
4. 下载[text2vec模型](https://huggingface.co/GanymedeNil/text2vec-large-chinese)放在`LexiLaw/demo/text2vec`目录下。
5. 下载编码好的知识库向量放在`LexiLaw/demo/cache`目录下。LexiLaw开源了Legal_book与Legal_article的向量。
| 知识库 | 描述 | 下载链接 |
| ------------------ | --------------------------------------------------------- | ------------------------------------------------------------ |
| Legal_book | 包含法理学、国际法、国际经济法、国际私法、环境资源法、经济法、劳动与社会保障法、民法、民事诉讼法、商法、司法制度与法律职业道德、宪法、刑法、刑事诉讼法、知识产权法、中国特色社会主义法治理论的基本理论知识 | [Legal_book](https://drive.google.com/file/d/1h_Ce8S7bqr5D0ozmYSAAK8G2ivun9cvn/view?usp=sharing) |
| Legal_article | 包含地方性法规、经济法、民法典、民法商法、社会法、司法解释、诉讼与非诉讼程序法、宪法、宪法相关法、刑法、行政法、行政法规等基本法条 | [Legal_article](https://drive.google.com/file/d/1_3Yw3Pt5vhtMMj6UOVHiCXFlNEe5LQPT/view?usp=sharing) |
6. 运行`python main.py`进入以下界面:
![image](./figure/LexiLaw.png)
7. 选择知识库问答并加载相应的知识库,开始提问!如果想制作自己的知识库,可以通过`python create_knowledge.py`实现。
## 训练数据
LexiLaw 的训练数据是通过综合使用通用领域数据、专业法律数据和法律文书进行微调而得到的。我们发现仅使用法律领域数据进行微调容易导致严重的过拟合现象,会导致模型忘掉原有的能力。
因此, 我们采用了以下数据组合来丰富模型的知识和能力:
- **通用领域数据**:我们使用了大规模的通用领域文本数据集 **[BELLE](https://github.com/LianjiaTech/BELLE)** 1.5M,其中包括不同指令类型、不同领域的文本。通过引入通用领域数据,模型可以更好地理解自然语言和上下文信息,提高对各种问题的处理能力。
- **法律问答数据**:我们收集了丰富的法律问答数据,包括常见法律问题和相应的答案。这些问答数据涵盖了多个法律领域,如合同法、劳动法、知识产权等。通过使用这些数据,模型可以学习到常见法律问题的回答模式和解释能力。
- **[LawGPT_zh](https://github.com/LiuHC0428/LAW-GPT)** :52k单轮问答数据和92k带有法律依据的情景问答
- **[Lawyer LLaMA](https://github.com/AndrewZhe/lawyer-llama)** :法考数据和法律指令微调数据
- **[华律网问答数据](https://www.66law.cn/)** :20k高质量华律网问答数据
- **[法律知道](https://github.com/murufeng/ChineseNlpCorpus/blob/master/datasets/lawzhidao/intro.ipynb)** :百度知道收集的36k条法律问答�
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
这个项目旨在提供专业的中文法律咨询服务,并分享在大模型在垂直领域微调的经验,以帮助社区开发更多优质的专用领域的大模型。 项目简介 LexiLaw 是一个经过微调的中文法律大模型,它基于 ChatGLM-6B 架构,通过在法律领域的数据集上进行微调,使其在提供法律咨询和支持方面具备更高的性能和专业性。 该模型旨在为法律从业者、学生和普通用户提供准确、可靠的法律咨询服务。无论您是需要针对具体法律问题的咨询,还是对法律条款、案例解析、法规解读等方面的查询,LexiLaw 都能够为您提供有益的建议和指导。 ## 功能和特点 - **专业法律知识**:LexiLaw 经过在大规模法律数据集上的微调,拥有丰富的中文法律知识和理解能力,能够回答各类法律问题。 - **法律咨询服务**:通过与 LexiLaw 进行交互,您可以提出具体的法律问题,模型将根据您的输入提供详细和准确的回答,为您提供法律咨询和支持。 - **广泛应用场景**:LexiLaw 适用于各种法律领域
资源推荐
资源详情
资源评论
收起资源包目录
LexiLaw - 中文法律大模型.zip (62个子文件)
LexiLaw-main
inference_lora.py 2KB
src
finetune_lora.py 3KB
freeze.sh 3KB
ptuning.sh 951B
lora.sh 837B
modeling_chatglm.py 56KB
tokenization_chatglm.py 16KB
finetune_ptuning.py 14KB
ds_config.json 659B
trainer_pt.py 181KB
data.py 3KB
arguments.py 5KB
finetune_freeze.py 3KB
configuration_chatglm.py 4KB
instruction_data.json 1KB
infer_lora.py 1KB
LICENSE 1KB
demo
assets
Kelpy-Codos.js 3KB
custom.css 7KB
favicon.ico 15KB
custom.js 25B
resources
OpenCC-1.1.6-cp310-cp310-manylinux1_x86_64.whl 760KB
main.py 8KB
clc
__init__.py 212B
langchain_application.py 4KB
source_service.py 3KB
gpt_service.py 5KB
__pycache__
config.cpython-39.pyc 660B
source_service.cpython-39.pyc 2KB
gpt_service.cpython-310.pyc 3KB
gpt_service.cpython-39.pyc 3KB
__init__.cpython-39.pyc 342B
__init__.cpython-310.pyc 310B
config.cpython-310.pyc 630B
source_service.cpython-310.pyc 2KB
langchain_application.cpython-39.pyc 3KB
langchain_application.cpython-310.pyc 3KB
config.py 495B
create_knowledge.py 1KB
tests
test_gradio_slient.py 395B
test_langchain.py 4KB
test_duckpy.py 294B
test_vector_store.py 464B
test_duckduckgo_search.py 1KB
cache
readme.md 0B
model
readme.md 0B
text2vec
readme.md 0B
app_modules
utils.py 6KB
presets.py 3KB
overwrites.py 2KB
__pycache__
overwrites.cpython-310.pyc 2KB
presets.cpython-310.pyc 2KB
utils.cpython-310.pyc 6KB
utils.cpython-39.pyc 6KB
presets.cpython-39.pyc 2KB
overwrites.cpython-39.pyc 2KB
figure
code.png 31KB
LexiLaw.png 653KB
inference_finetune.py 2KB
inference_ptuning.py 2KB
requirements.txt 106B
README.md 29KB
共 62 条
- 1
资源评论
LeapMay
- 粉丝: 2w+
- 资源: 2302
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- rdf0412-kcu116-pcie-c-2019-1.zip(XILINX KCU116 源码)
- 基于C#语言的winform界面火车票订票系统(源码+实验报告)
- 【华为OD部分真题及讲解】华为OD部分真题及讲解
- 基于Python+Django的京东商品比价系统源码+全部资料(毕业设计).zip
- G460 G560 Z460 Z560的最新BIOS 2.18版(无白名单)
- MetaJUI v0.4
- 基于Python+Django的京东商品比价系统源码+全部资料(毕业设计).zip
- linux常用命令大全
- 立体相机标定-使用OpenCV+Cpp对立体相机进行标定-calibration-附项目源码+流程教程-优质项目实战.zip
- 基于SpringBoot+Mysql开发的酒店管理系统
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功