import xml.etree.ElementTree as ET
import json
import jsonlines
# 解析XML文件
tree = ET.parse('EmotionClassficationTest.xml')
root = tree.getroot()
# 构建由字典组成的列表
sentences_list = []
output_type={'like':'喜欢','happiness':'高兴','surprise':'惊讶','disgust':'恐惧','fear':'害怕','anger':'生气','sadness':'忧伤','none':'无'}
for weibo in root.findall('weibo'):
for sentence_elem in weibo.findall('sentence'):
opinionated = sentence_elem.get('opinionated')
if opinionated == 'Y':
value={}
value['instruction']='请分析评论的情感色彩,回复积极或者消极'
value['input'] = sentence_elem.text.strip() if sentence_elem.text else ''
value['output'] = output_type[sentence_elem.get('emotion-1-type')]
sentences_list.append(value)
# 将列表保存为JSONL文件
with jsonlines.open('outputweibo.jsonl', mode='w') as file:
file.write_all(sentences_list)
print('处理完成,结果已保存至 outputweibo.jsonl')
解析xml格式文件,并转化成jsonl格式文件
23 浏览量
2024-04-10
20:35:11
上传
评论
收藏 723KB RAR 举报
coleman114
- 粉丝: 85
- 资源: 32
最新资源
- dysbb_121970.apk
- 斐波那契数列开发案列优质学习资料资源工具与案列应用场景开发文档教程资料.txt
- C语言系统化精讲 重塑编程思想 打造坚实的开发基础 – 带源码课件
- 端午节龙舟赛开发案列优质学习资料资源工具与案列应用场景开发文档教程资料.txt
- 毕业设计:Python基于知识图谱的医疗问答系统(源码 + 数据库 + 使用文档).zip
- 202312(第15届)蓝桥杯Scratch图形化编程青少组(选拔赛-初/中级)第2题真题-转动的风车素材和程序
- 投票系统开发案列优质学习资料资源工具与案列应用场景开发文档教程资料.txt
- 51单片机应用系统典型模块开发大全(第3版)资料
- 汇编语言开发案列优质学习资料资源工具与案列应用场景开发文档教程资料.txt
- Python + OpenCV开发案列优质学习资料资源工具与案列应用场景开发文档教程资料.txt
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈