## ChineseFactEval: A Factuality Benchmark for Chinese LLMs
We release a dataset designed for benchmarking the factuality of Chinese LLMs. Please check out our full [report](https://GAIR-NLP.github.io/ChineseFactEval).
This benchmark contains 125 prompts across 7 scenarios: general domain, scientific research, medical, law, finance, math, and Chinese modern history.
We evaluate six Chinese LLMs, including Yiyan (文心一言), Doubao (豆包), Baichuan (百川), ChatGlm (智谱清言), Sensetime (商量), and ABAB, alongside GPT-4, using our benchmark. The annotations were done collectively by the authors of the report. We also leverage Factool, a tool augmented framework for detecting factual errors of texts generated by LLMs, to assist us in annotating the complex responses in medical and law domains. The results from Factool have also been made available.
## Factuality Leaderboard for Chinese LLMs
Our factuality leaderboard shows the factuality of different chatbots in different scenarios.
| LLMs | General | Scientific Research | Medical | Law | Finance | Math | Chinense Modern History | Total |
| -------- | -------- | -------- | -------- | ---------------- | -------- | ------------------ | ------ | --------------------- |
| GPT-4 | ****61/94**** | ****13.5 / 21**** | 9 / 20 | 19/47 | ****12 / 21**** | 26 / 52 | ****43 / 46**** | ****183.5 / 301****|
| Doubao (豆包) | 49/94 | 3 / 21 | ****12 / 20**** | ****20 / 47**** | 7 / 21 | 11 / 52 | 37 / 46 | 139 / 301 |
| Yiyan (文心一言) | 34/94 | 6 / 21 | 8 / 20 | 13 / 47 | 1.5 / 21 | ****37 / 52**** | 23 / 46 | 122.5 / 301 |
| Sensetime (商量) | 44/94 | 3 / 21 | 6 / 20 | 12 / 47 | 7 / 21 | 0 / 52 | 31.5 / 46 | 103.5 / 301 |
| ChatGlm (智谱清言) | 27.5/94 | 0 / 21 | 3 / 20 | 13 / 47 | 8 / 21 | 15 / 52 | 23 / 46 | 89.5 / 301 |
| ABAB | 34.5/94 | 1.5 / 21 | 9 / 20 | 15 / 47 | 5 / 21 | 6 / 52 | 6 / 46 | 77 / 301 |
| Baichuan (百川) | 18/94 | 0 / 21 | 3 / 20 | 7 / 47 | 3 / 21 | 2 / 52 | 30.5 / 46 | 63.5 / 301 |
没有合适的资源?快使用搜索试试~ 我知道了~
基于国内大模型评测数据集 factool 的 UI.zip
共43个文件
ts:11个
tsx:9个
jsonl:6个
需积分: 0 0 下载量 83 浏览量
2023-12-24
13:14:04
上传
评论
收藏 1.01MB ZIP 举报
温馨提示
AIGC(Artificial Intelligence Generated Content,人工智能生成内容)的重要性体现在以下几个方面: 内容创作效率提升: AIGC能够快速生成大量高质量的内容,包括文本、图像、音频、视频等,极大地提高了创作效率。这不仅降低了人力成本,也使得内容更新和迭代的速度加快,满足了信息爆炸时代人们对新鲜内容的高需求。 个性化和定制化服务: AIGC可以根据用户的需求和偏好自动生成个性化的内容。这种能力在教育、娱乐、营销等领域具有巨大价值,能够提供高度定制化的用户体验,增强用户黏性和满意度。 创新与发现新应用: AIGC技术的不断发展和普及促进了新的应用场景和商业模式的诞生。通过降低开发门槛,更多的开发者和企业能够探索和实验AIGC的应用,有可能催生出全新的现象级应用和服务。 商业效益增长: AIGC在数字商业化领域具有显著优势。它能够赋能营销策略,提高广告和推广的精准度和效果,从而带动企业收入的增长。同时,通过自动化的内容生成,企业可以节省资源并专注于核心业务的创新和发展。 知识传播与教育: AIGC能够生成教育材料、教程和知识摘要,帮助人们更高效地获取和学习新知识。在教育领域,AIGC可以个性化定制学习路径和内容,适应不同学生的学习速度和方式。 行业效率优化: 在保险、出版、法律等行业,AIGC可以自动处理大量的文档、报告和合同,提高工作效率,减少人为错误,并提供数据分析和决策支持。 学术研究与伦理考量: AIGC在学术研究中的应用需要遵循特定的使用边界和准则,以防止学术不端行为。明确的指南有助于确保研究成果的真实性和可信度,同时推动AI技术在科研领域的健康发展。
资源推荐
资源详情
资源评论
收起资源包目录
基于国内大模型评测数据集 factool 的 UI.zip (43个子文件)
openopenopenopenopenopenopen
yarn.lock 158KB
prisma
schema.prisma 425B
tailwind.config.js 2KB
components.json 333B
.env.example 630B
src
pages
_app.tsx 361B
index.tsx 2KB
api
trpc
[trpc].ts 543B
env.mjs 1KB
styles
globals.css 2KB
ds.ts 254B
utils
api.ts 2KB
shadcn.ts 167B
components
factool-main.tsx 5KB
factool-sub.tsx 2KB
ui
input.tsx 835B
button.tsx 2KB
dropdown-menu.tsx 7KB
label.tsx 727B
table.tsx 3KB
types
global.ts 73B
server
api
trpc.ts 3KB
root.ts 481B
routers
factool.ts 677B
example.ts 410B
datasets
math
math.jsonl 95KB
scientific
scientific.jsonl 116KB
chinese
factool_output.jsonl 2.41MB
dataset_chinese.jsonl 566KB
README.md 2KB
knowledge_qa
knowledge_qa.jsonl 38KB
code
code.jsonl 105KB
db.ts 399B
postcss.config.cjs 107B
package.json 2KB
public
favicon.ico 15KB
next.config.mjs 673B
tailwind.config.ts 171B
prettier.config.mjs 177B
.eslintrc.cjs 391B
.gitignore 598B
tsconfig.json 761B
README.md 460B
共 43 条
- 1
资源评论
极致人生-010
- 粉丝: 3201
- 资源: 3077
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Picasso_v3.1 2.ipa
- chromedriver-mac-arm64.zip
- 蓝zapro.apk
- chromedriver-linux64.zip
- UCAS研一深度学习实验-MNIST手写数字识别python源码+详细注释(高分项目)
- 基于Python和PyTorch框架完成的一个手写数字识别实验源码(带MINIST手写数字数据集)+详细注释(高分项目)
- 基于Matlab在MNIST数据集上利用CNN完成手写体数字识别任务,并实现单层CNN反向传播算法+源代码+文档说明(高分项目)
- NVIDIA驱动、CUDA和Pytorch及其依赖
- 基于SVM多特征融合的微表情识别python源码+项目说明+详细注释(高分课程设计)
- html动态爱心代码一(附源码)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功