### 评测方法
首先,我们所用的评测数据集是超对称团队针对金融行业的预训练模型发布的一套目前中文领域金融大模型最专业的评测数据集BBT CFLEB,包含八个标准语言任务,包括摘要生成、文本分类、关系抽取、事件抽取和其他任务,用以衡量不同的模型的多维能力,并促进金融大模型研发。数据集出处:https://bbt.ssymmetry.com/evaluation.html。
我们目前提供了baichuan-7b、baichuan-13b-base、baichuan-13b-chat、bloomz-7b、chatglm、chatglm2、fingpt-v3的评测代码,同时也可以加入针对自己数据训练出来的lora权重进行评测。下面介绍评测的几个步骤:
- 第一步:运行脚本`preprocess.py`,会在本地创建一个`data`的文件夹,把八个任务的数据集下载到本地,并且会针对每个数据集进行相应的处理,方便后续进行评测。同时还会生成一个`instruct_samples.json`文件,这里保存着每个数据集的few-shot。这里需要说明的一点是:我们将第七个数据集拆分成两个数据集,对应着两个不同的任务。
- 第二步:使用如下命令运行脚本`autoeval.py`:
python autoeval.py --model xxxx --lora_path xxxx --eval_data all --device cuda:0
目前model可以分别设置为:chatglm-6b、chatglm2-6b、baichuan-7b、baichuan-13b-base、baichuan-13b-chat、bloomz-7b、fingpt-v3。
- 第三步:最终的评测结果会自动保存成json文件。
如果需要在其他模型上进行评测,需要修改源代码。
主要分为以下两步:
- 第一步:在 `finllm.py` 代码中自定义一个模型类,该类需要继承 DISCFINLLMBase 类,并实现 generate 函数,其中 generate 函数的输入为任意**提示文本**,输出为模型的**回复**
```python
import os
from evaluator.finllm import DISCFINLLMBase
from langchain.chat_models import ChatOpenAI
from langchain.schema import HumanMessage
os.environ["OPENAI_API_KEY"] = ""
os.environ["OPENAI_API_BASE"] = ""
class OpenAILLM(DISCFINLLMBase):
def __init__(self):
self.model = ChatOpenAI()
def generate(self, prompt: str) -> str:
messages = [HumanMessage(content=prompt)]
response = self.model(messages).content
return response
```
- 第二步:运行脚本
```shell
python evaluate.py
```
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
DISC-FinLLM.zip (29个子文件)
DISC-FinLLM
DISC-FinLLM-main
data
consulting_part.json 162KB
retrieval_part.json 392KB
computing_part.json 66KB
task_part.json 205KB
README.md 336B
LICENSE 11KB
cli_demo.py 2KB
web_demo.py 2KB
requirements.txt 104B
eval
computing_eval.json 75KB
evaluator
utils.py 5KB
preprocess.py 10KB
evaluate.py 54KB
autoeval.py 2KB
finllm.py 8KB
README.md 2KB
README.md 492B
retriever_eval.json 243KB
images
example_task.gif 3.65MB
data_zh.png 1.06MB
lora_zh.png 281KB
example_retrieval.gif 11.12MB
example_tool.gif 3.55MB
lora_en.png 378KB
example_consult.gif 5.45MB
model_zh.png 3.73MB
model_en.png 6.48MB
data_en.png 1.92MB
README.md 11B
共 29 条
- 1
资源评论
- randyhuang12024-03-20超级好的资源,很值得参考学习,对我启发很大,支持!
汀、人工智能
- 粉丝: 7w+
- 资源: 376
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功