# CCPM
[中文](#简介) | [English](#Introduction)
### 简介
中国古典诗歌匹配数据集(Chinese Classical Poetry Matching Dataset),给定中国古典诗歌的现代问描述,要求从候选的四句诗中选出与现代文描述语义匹配的那一句。我们利用古典诗歌和现代文翻译的平行语料构建正确选项,并利用正确选项从古代诗歌语料库中利用相似检索构造出错误候选。
### 数据规模
训练集: 21,778句,验证集: 2,720句,测试集: 2,720句
### 数据格式
每条数据包含诗歌对应的描述(translation,以字符串形式存储),四个候选诗句(choice,以列表形式存储),正确诗句的答案编号(answer,为0-3之间的整数)
样例如下:
```
{"translation": "一生当中疾病缠身今日独上高台。",
"choices": ["一春多病几登台", "百年多病独登台", "百年多病负登临", "况多愁病独登台"],
"answer": 1}
```
### 评测代码使用
**预测结果需要和训练集数据格式保持一致**
**正确提交文件名:CCPM.jsonl**
```shell
python eval.py prediction_file test_private_file
```
评测指标为Accuracy,输出结果为字典格式:
```python
return {
'accuracy': accuracy_score(trues, preds),
}
```
### 引用
如果您使用了本数据集,请引用以下技术报告:
```
@article{li2021CCPM,
title = {CCPM: A Chinese Classical Poetry Matching Dataset},
author = {Li, Wenhao and Qi, Fanchao and Sun, Maosong and Yi, Xiaoyuan and Zhang, Jiarui},
journal={arXiv preprint arXiv:2106.01979},
year = {2021}
}
```
------
### Introduction
CCPM is a large Chinese classical poetry matching dataset that can be used for poetry matching, understanding and translation.
The main task of this dataset is: given a description in modern Chinese, the model is supposed to select one line of Chinese classical poetry from four candidates that semantically match the given description most. To construct this dataset, we first obtain a set of parallel data of Chinese classical poetry and modern Chinese translation. Then we retrieve similar lines of poetry with the lines in a poetry corpus as negative choices.
### Size
It contains 27,218 instances in total, which are split into training (21,778 instances), validation (2,720 instances) and test (2,720 instances) sets.
### Format
Each instance is composed of `translation` (the description in modern Chinese, a string), `choice` (four candidate lines of Chinese classical poetry, a list) and `answer` (the index of the correct line, an integer between 0 and 3).
Here is an example:
```
{"translation": "一生当中疾病缠身今日独上高台。",
"choices": ["一春多病几登台", "百年多病独登台", "百年多病负登临", "况多愁病独登台"],
"answer": 1}
```
### Usage of the Evaluation Code
**The format of the prediction file needs to be consistent with the training set.**
**Valid prediction file name:CCPM.jsonl**
```shell
python eval.py prediction_file test_private_file
```
The Evaluation Metric is accuracy, the format of the output is a dictionary as folliowing:\
```python
return {
'accuracy': accuracy_score(trues, preds),
}
```
### Citation
Please cite our technical report if you use this dataset:
```
@article{li2021CCPM,
title = {CCPM: A Chinese Classical Poetry Matching Dataset},
author = {Li, Wenhao and Qi, Fanchao and Sun, Maosong and Yi, Xiaoyuan and Zhang, Jiarui},
journal={arXiv preprint arXiv:2106.01979},
year = {2021}
}
```
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
个人深耕AI大模型应用领域积累的成果,希望对您有所帮助。有大模型账号、环境问题、AI大模型技术应用落地方案等相关问题,欢迎详聊,能为您解决问题是我的荣幸! 个人深耕AI大模型应用领域积累的成果,希望对您有所帮助。有大模型账号、环境问题、AI大模型技术应用落地方案等相关问题,欢迎详聊,能为您解决问题是我的荣幸! 个人深耕AI大模型应用领域积累的成果,希望对您有所帮助。有大模型账号、环境问题、AI大模型技术应用落地方案等相关问题,欢迎详聊,能为您解决问题是我的荣幸! 个人深耕AI大模型应用领域积累的成果,希望对您有所帮助。有大模型账号、环境问题、AI大模型技术应用落地方案等相关问题,欢迎详聊,能为您解决问题是我的荣幸! 个人深耕AI大模型应用领域积累的成果,希望对您有所帮助。有大模型账号、环境问题、AI大模型技术应用落地方案等相关问题,欢迎详聊,能为您解决问题是我的荣幸! 个人深耕AI大模型应用领域积累的成果,希望对您有所帮助。有大模型账号、环境问题、AI大模型技术应用落地方案等相关问题,欢迎详聊,能为您解决问题是我的荣幸!
资源推荐
资源详情
资源评论
收起资源包目录
《AI大模型应用》--基于多个大模型并微调训练的图—诗歌转换器.zip (54个子文件)
Lora模型
oldscene_v1.0.safetensors 134B
Helsinki-NLP---opus-mt-en-zh
flax_model.msgpack 134B
source.spm 788KB
vocab.json 1.54MB
pytorch_model.bin 134B
generation_config.json 293B
target.spm 786KB
_gitattributes 391B
config.json 1KB
metadata.json 1KB
tokenizer_config.json 44B
README.md 3KB
.gitattributes 222B
image_process.py 2KB
BERTMatching.py 5KB
fview.py 2KB
BERT_CCPoem_v1
gen_vec_rep.py 4KB
CCPM-master
test_public.jsonl 474KB
train.jsonl 3.97MB
valid.jsonl 509KB
Readme.md 3KB
dataprocess
translated_choices_data.csv 1.46MB
translate.ipynb 3KB
choices.csv 8.97MB
data.csv 2.83MB
train.csv 2.79MB
unique_choices.csv 1.73MB
BERT_CCPoem_v1
training_args.bin 129B
pytorch_model.bin 134B
bert_model_params.pth 134B
config.json 1KB
tokenizer_config.json 2B
special_tokens_map.json 112B
vocab.txt 47KB
__MACOSX
._BERT_CCPoem_v1 220B
view.py 1KB
embedding.npy 134B
finetune.ipynb 24KB
项目展示.mp4 12.86MB
code.ipynb 457KB
Datasets-master
CCPC
choices.csv 8.97MB
process.ipynb 3KB
ccpc_test_v1.0.json 2.02MB
ccpc_valid_v1.0.json 1.62MB
README.md 2KB
ccpc_train_v1.0.json 23.1MB
langchainModel.py 863B
photo
1.png 655KB
2.png 1.23MB
__pycache__
langchainModel.cpython-38.pyc 917B
BERTMatching.cpython-38.pyc 4KB
image_process.cpython-38.pyc 2KB
README.md 2KB
fview_tem.py 2KB
共 54 条
- 1
资源评论
季风泯灭的季节
- 粉丝: 1652
- 资源: 3385
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 其四相开关磁阻电机Maxwell+Simplorer联合仿真性能及其波形 资料为模型文件,具有可复制性
- netinstall-6.49.5刷机救砖工具mikrotik
- 三相共直流母线式光储VSG 同步机 构网型 组网型逆变器 仿真包含前级光伏PV与Boost的扰动观察法最大功率追踪,共直流母线式
- yuvplayer播放器
- 我的资源!~~~@@@@@@@@@@
- Notepad++编译运行php完美方案,真实可用,附安装程序及插件
- 为了解年轻人群在校园恋爱中的真实经历和心理,青藤之恋与武汉大学数据新闻研究中心共同发起了关于校园恋爱与社会恋爱的调研,面向青藤之
- UBNT网桥RM5 TI钛系列v5.5.6全频更新固件
- 2024C盘清理小工具合集
- 连接查询-嵌套查询.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功