# 演示视频
链接:https://pan.baidu.com/s/1SfywE5AoKXF3e9IyjeECvg
提取码:jkor
# 技术路线图
![](https://github.com/linwt/Intelligent-Customer-Service/blob/master/data/pic/framework.jpg)
# 文件说明
* data:包括爬虫数据、扩充数据、官方数据
* security:爬取百度、百度知道、搜狗数据
* wiki:获取维基百科数据进行分词和分字处理,并训练词向量和字向量模型
* process:对爬虫数据和官方数据进行处理
* model:单个强模型,微调得到多个弱模型,投票方式融合
# 获取维基百科数据
一、维基百科数据下载地址
  https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
二、开源解压项目
  https://github.com/attardi/wikiextractor
  1、直接复制WikiExtractor.py文件即可
  2、解压文件E:\wikiextractor>python WikiExtractor.py -cb 1500M -o extracted E:\zhwiki-latest-pages-articles.xml.bz2
  3、得到E:\wikiextractor\extracted\AA\wiki_00.bz2,解压wiki_00.bz2得到wiki_00,重命名为wiki.txt
三、下载opencc
  1、下载opencc windows版
  2、将bin目录路径添加到环境变量
四、简繁体转换
  E:\wiki\extracted\AA> opencc -i wiki.txt -o wiki_jian.txt -c E:\wiki\opencc-1.0.4-win32\opencc-1.0.4\share\opencc\t2s.json
五、分词、分字
  将wiki_jian.txt按照分词和分字两种方法进行切分,并保存到txt文件中
# 模型指标
单模型|正确率|召回率|F1值
--|--|--|--|
模型1|0.862|0.767|0.812
模型2|0.859|0.758|0.805
模型3|0.964|0.370|0.535
模型4|0.931|0.570|0.707
模型5|0.924|0.611|0.735
融合效果|正确率|召回率|F1值
--|--|--|--|
top1(sim>0.8)|0.895|0.812|0.851
top5(sim>0.6)|0.984|0.962|0.973
嵌入式大圣
- 粉丝: 4389
- 资源: 792
最新资源
- 全氟聚醚行业市场调研报告:全球前10强生产商排名及市场份额
- 自动裁切装PIN设备(含,BOM) sw17可编辑全套技术开发资料100%好用.zip
- C语言编程中圣诞树打印技术实现与教学
- STM32 ADC采样的十种滤波加程序
- 文件上传神器,ftp文件上传到服务器
- (176820022)基于遗传算法(GA)优化高斯过程回归(GA-GPR)的数据回归预测,matlab代码,多变量输入模型 评价指标包括:R2、M
- Python实现控制台打印圣诞树图案
- (176739420)遗传算法(GA)优化极限学习机ELM回归预测,GA-ELM回归预测,多变量输入模型 评价指标包括:R2、MAE、MSE、RM
- (175488410)基于 SSM java源码 仿buy京东商城源码 京东JavaWeb项目源代码+数据库(Java毕业设计,包括源码,教程)
- 自动编带包装机step全套技术开发资料100%好用.zip
- 基于STM32单片机的智能晾衣架项目源码(高分项目)
- 微信小程序开发入门与项目构建指南
- 自动翻转涂胶机(含工程图)sw16可编辑全套技术开发资料100%好用.zip
- (175488396)基于 SSM 的JAVAWEB校园订餐系统项目源码+数据库(Java毕业设计,包括源码,教程).zip
- (177358030)Python 爬虫基金.zip
- LLC板桥震荡参数计算
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈