import os
import json
import random
inputfile = "/Users/bytedance/Desktop/彩云之剪视频/conversation_data/film/train.json"
image_dir = "/Users/bytedance/Desktop/彩云之剪视频/background/"
save_dir = "/Users/bytedance/Desktop/彩云之剪视频/footnote/"
nicknames = "烨磊,晟睿,天佑,文昊,修洁,黎昕,远航,旭尧,鸿涛,伟祺,荣轩,越泽,浩宇,瑾瑜,皓轩,擎苍,擎宇,志泽,子轩,睿渊,弘文,哲瀚,雨泽,楷瑞,建辉,晋鹏,天磊,绍辉,泽洋,鑫磊,鹏煊,昊强,伟宸,博超,君浩,子骞,鹏涛,炎彬,鹤轩,越彬,风华,靖琪,明辉,伟诚,明轩,健柏,修杰,志泽,弘文,峻熙,嘉懿,煜城,懿轩,烨伟,苑博,伟泽,熠彤,鸿煊,博涛,烨霖,烨华,煜祺,"
nicknames = nicknames.split(",")
nicknames += "风之翼,蓝月亮,微笑向暖,紫荆花开,阳光下的微笑,蓝色海洋,彩虹之梦,梦幻之城,晨曦微光,星河灿烂,山海,海蓝蓝,阿辉,阿会,丝巾,一念花开,花开富贵,花花,波澜不惊".split(",")
nicknames += "大白鲨,小熊猫,大老虎,小狐狸,大狮子,小猴子,大河马,小松鼠,大骆驼,小兔子".split(",")
nicknames += "且听风铃,微光倾城,偷得浮生,雨晨的清风,烛光里的愿,紫色的彩虹,,伊人泪满面,青丝茧,微醉阳光,如花的旋律,代价是折磨,倚靠窗畔,花舞花落泪,梦里花。,浅浅嫣然笑,深巷的猫,漫步云海涧,执手不忆殇".split(",")
nicknames += "云纹梦纷蝶,阳光温暖空屋,触摸阳光,闪耀旳白梦,橱窗的光,初晓微芒,深渊的那支花,地平线无际,烟雨彷徨,回忆的沙漏,黑魅惑,钢琴上的芭蕾,潮起潮落,半颗心的暖,焰火灿烂时,化思念为星,流苏书包,芭比萌妹".split(",")
nicknames += "不再回忆谁,海氹有点甜,梦梦贝莉雅,三字故事,乱世小熊,呵呵恩恩哦,一瞬之光,萌傻卿,勇敢的小萝卜,枕畔红冰薄,盈手赠佳期,蛰伏半世情,阑珊了春事,蝶无需花恋,提笔落墨".split(",")
nicknames += "大白鲨、小青蛙、大乌龟、小白兔、大白鹅、小狗狗、大狗狗、小白猫、大灰猫、小老鼠、大老鼠、小鹿、大鹿、小鸡、大鸡、小鱼、大鱼、小鹰、大鹰".split("、")
background_images = [os.path.join(image_dir, filename) for filename in os.listdir(image_dir)]
total_lines = 0
with open(inputfile, "r") as rf:
lines = json.load(rf)
for idl, line in enumerate(lines):
human1, human2 = random.choice(nicknames), random.choice(nicknames)
display_name = random.choice(["是", "否"])
if random.random() < 0.5:
background = random.choice(background_images)
else:
background = "否"
res = "【视频模板】: 视频模板001\n【使用方法】: 此模板使用方法请参考使用教程中的视频\n\n"
res += f"主角昵称: {human1}\n显示昵称: {display_name}\n背景图片: {background}\n背景音乐: 无\n\n"
res += f"旁白.配音: 配音女\n{human1}.配音: 中年大叔\n{human2}.配音: 配音女\n\n{human1}.头像: 随机头像\n{human2}.头像: 随机头像\n\n旁白: \n\n"
# 小白: 我想制作搞笑对话,应该怎么做呢?"
for idm, message in enumerate(line["messages"]):
# if "attrs" in message:
# attrs = message["attrs"]
# for attr in attrs:
# print(attr.keys())
text = message["message"]
# print(message.keys())
print(text)
if idm % 2 == 0:
res += f"{human1}:" + text + "\n\n"
else:
res += f"{human2}:" + text + "\n\n"
total_lines += 1
print(res)
print("=" * 100)
outputfile = os.path.join(save_dir, str(idl) + ".txt")
with open(outputfile, "w") as wf:
wf.write(res)
print(total_lines)
中文对话数据集+处理脚本(python)
需积分: 5 107 浏览量
2024-01-05
10:29:09
上传
评论
收藏 9.75MB ZIP 举报
qq_33701905
- 粉丝: 1
- 资源: 3
最新资源
- 优先编码器除法电微分运算电路 全加器函数发生电路等电路经典Multisim仿真实验源文件合集(25个).zip
- 2331308JS课堂案例.zip
- STM32H750VBT6单片机最小系统开发板AD设计硬件(原理图+PCB+3D封装库)工程文件.zip
- 基于74LS161+ 74LS192芯片实现倒计时定时器Multisim仿真源文件,Multisim10以上版本可打开运行
- 科大讯飞语音引擎 jar包 demo,科大讯飞语音合成引擎3.0,支持4.0系统以上,文字转语音输出.zip
- Java架构面试笔试专题资料及经验(含答案)SpringBoot面试Linux面试专题及答案 合集.zip
- 头歌c语言实验答案tion-model-for-ne开发笔记
- docker配置使用-model-for-networK开发demo
- docker配置使用vaWeb-mas笔记
- c语言连接两个字符串-mas开发笔记
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈