# FinanceIQ:中文金融领域知识评估数据集
<p align="center" style="display: flex; flex-direction: row; justify-content: center; align-items: center">
🤗 <a href="https://huggingface.co/datasets/Duxiaoman-DI/FinanceIQ" target="_blank" style="margin-left: 10px">数据集</a>
</p>
## 简介
FinanceIQ是一个专注于金融领域的中文评估数据集,重点评估大语言模型在金融场景下的知识和推理能力。FinanceIQ涵盖了10个金融大类及36个金融小类,总计7173个单项选择题。
<p align="center"> <img src="resources/logo.png" style="width: 100%;" id="title-icon"> </p>
## 金融大模型评估的核心指标
在金融行业中,目前尚未存在一套完善且统一的大模型评估标准。现有的通用评估框架,如 C-Eval 和 CMMLU,对金融领域的知识考察相对有限。因此,建立一个专门针对金融领域的评估体系势在必行。这样的体系不仅能够更精准地评估模型在金融环境中的表现,还能助力研发团队更有效地开发和调整模型,以满足金融业务的具体要求,降低实际应用的试错成本。
那么,如何制定专门针对金融行业的大模型评估体系呢?我们倡导一种综合性的评估方法,灵感来源于人力资源领域的多维度评估。具体而言,我们将这一评估过程分为三大部分:通用能力、专业知识和场景应用。
- 通用能力: 在人才选拔中,高考等大规模考试通常用于评估个体的通用能力,覆盖语言、数学、逻辑推理等多个方面。类似地,金融大模型的通用能力也应该受到充分重视。目前,国内已有一些评估基准如C-Eval和CMMLU,它们采用全类目学科考题来衡量模型的通用性。值得一提的是,这些基准正在不断优化,以适应模型开发的新动态。
- 专业知识: 除了通用能力外,专业知识是另一个关键评估因素。在金融领域,专业知识涵盖了寿险、理财、投资、信贷等多个细分领域。因此,评估标准必须包括对模型在这些专业领域内知识储备的全面评价。这是目前评估体系中的一个显著空白,也是我们需要集中关注的点。
- 场景应用: 这是一个更复杂的维度,因为它涉及模型在具体工作环境中的表现。类似于人才选拔的面试过程,场景应用能力往往需要由具体的需求方来评价。因为每个业务场景都有其独特的需求和挑战,没有单一的标准可以全面评价模型在各种场景中的适用性。事实上,由于其复杂性和多变性,更适合由具体业务需求方进行定制化评估。
因此,在构建针对金融大模型的评估体系时,我们特别注重“专业知识”这一核心因素,计划对其进行全方位和深入的评估,以确保覆盖金融行业的多个子领域。这样的专注并不意味着忽视其他评估维度,而是因为“专业知识”在目前的评估体系中存在显著的缺失,亟待我们集中解决。
## 数据来源与质量保证
我们的评测数据分为10个金融大类及36个金融小类。主要涵盖了注册会计师(CPA)、税务师、经济师、银行从业资格、基金从业资格、证券从业资格、期货从业资格、保险从业资格(CICE)、理财规划师几大权威金融领域考试。为了进一步提高评估的复杂性,我们额外选取了精算师考试中的《金融数学》科目,以此对模型处理高难度金融数学题的能力进行测试。
**题目筛选**:为了保证试题质量,FinanceIQ里面的题目大多是来源于PDF格式的文件。这些文件经过人工处理和清洗,以适应模型评估的需求。与此同时,为了确保评估结果的客观性,我们避免使用网页文本形式的试题,因为这类题目可能已被用于大模型的预训练,从而可能影响评估的准确性。
**题目改写**:为了进一步评估模型真实泛化能力,提升题目多样性,我们在不改变题目原意的前提下使用GPT4对所有精选后的原始题目的描述方式进行了改写,之后经过专业人员的仔细校对,保证题目的改写质量。同时,我们也对每道题目的四个选项均进行了随机的顺序打乱。经过这些步骤,我们实现了对原始题目的“适度改造”,使得对于参评模型来说,这是一道训练过程中“未见过”的测试题目。这样做的好处,首先可以很大程度上缓解“数据泄漏”的现象,将所有模型放在“同一起跑线”上进行客观公正地评估,其次,提升了题目的多样性,可以观察和衡量模型在金融领域知识上的泛化能力。题目改写前后的示例请见文末。
## 评测成绩
我们将所有参评模型按照Base底座模型和Chat模型两类分别测评,并分别采用 five-shot 和 zero-shot 的评测方式。以下表格显示了各模型的表现。为了便于对比,我们将GPT4、ChatGPT、ErnieBot和ErnieBot-Turbo这四个API模型同时列在了两个表里。
#### Base模型(Five-Shot)
| 模型 | 平均分 | 注册会计师 | 银行从业资格 | 证券从业资格 | 基金从业资格 | 保险从业资格 | 经济师 | 税务师 | 期货从业资格 | 理财规划师 | 精算师 |
| ------------------------------------------------------------------------------- | ------ | ---------- | ------------ | ------------ | ------------ | ------------ | ------ | ------ | ------------ | ---------- | ------ |
| [XuanYuan-70B](https://huggingface.co/Duxiaoman-DI/XuanYuan-70B) | 67.56 | 69.49 | 76.40 | 69.56 | 74.89 | 67.82 | 84.81 | 58.40 | 71.59 | 65.15 | 37.50 |
| [GPT4](https://openai.com/gpt4) (0-shot) | 60.05 | 52.33 | 68.72 | 64.8 | 68.81 | 68.68 | 75.58 | 46.93 | 63.51 | 63.84 | 27.27 |
| [ErnieBot](https://cloud.baidu.com/doc/WENXINWORKSHOP/s/jlil56u11) (0-shot) | 55.44 | 50.8 | 64.72 | 56.38 | 60.89 | 59.48 | 74.42 | 44.26 | 56.12 | 56.68 | 30.68 |
| [Qwen-14B](https://huggingface.co/Qwen/Qwen-14B) | 53.29 | 46.76 | 63.2 | 56.38 | 58.83 | 57.76 | 69.23 | 42.62 | 56.58 | 57.65 | 23.86 |
| [Baichuan2-13B-Base](https://github.com/baichuan-inc/Baichuan2) | 51.2 | 45.46 | 58.88 | 50.94 | 57.8 | 54.45 | 64.81 | 42.83 | 50.81 | 53.09 | 32.95 |
| [Baichuan2-7B-Base](https://github.com/baichuan-inc/Baichuan2) | 47.35 | 39.36 | 54.56 | 45.58 | 52.64 | 51.01 | 60.58 | 38.52 | 49.42 | 51.14 | 30.68 |
| [Baichuan-13B-Base](https://github.com/baichuan-inc/Baichuan-13B) | 44.49 | 39.74 | 52.8 | 43.37 | 52.29 | 48.99 | 58.85 | 33.61 | 43.65 | 53.42 | 18.18 |
| [ChatGPT](https://openai.com/chatgpt) (0-shot) | 44.2 | 34.32 | 53.12 | 44.81 | 55.05 | 49.71 | 55.19 | 31.97 | 45.27 | 49.84 | 22.73 |
| [Qwen-7B](https://github.com/QwenLM/Qwen-7B) | 41.47 | 35.7 | 49.92 | 42.35 | 48.39 | 43.1 | 57.88 | 30.12 | 42.49 | 44.3 | 20.45 |
| [ErnieBot-Turbo](https://cloud.baidu.com/doc/WENXINWORKSHOP/s/4lilb2lpf) (0-shot) | 40.69 | 35.49 | 48.32 | 37.76 | 44.61 | 43.53 | 50 | 32.17 | 43.88 | 44.95 | 26.14 |
| [Chinese-LLaMA-2-13B](https://github.com/ymcui/Chinese-LLaMA-Alpaca-2) | 38.65