# 演示视频
链接:https://pan.baidu.com/s/1SfywE5AoKXF3e9IyjeECvg
提取码:jkor
# 技术路线图
![](https://github.com/linwt/Intelligent-Customer-Service/blob/master/data/pic/framework.jpg)
# 文件说明
* data:包括爬虫数据、扩充数据、官方数据
* security:爬取百度、百度知道、搜狗数据
* wiki:获取维基百科数据进行分词和分字处理,并训练词向量和字向量模型
* process:对爬虫数据和官方数据进行处理
* model:单个强模型,微调得到多个弱模型,投票方式融合
# 获取维基百科数据
一、维基百科数据下载地址
  https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
二、开源解压项目
  https://github.com/attardi/wikiextractor
  1、直接复制WikiExtractor.py文件即可
  2、解压文件E:\wikiextractor>python WikiExtractor.py -cb 1500M -o extracted E:\zhwiki-latest-pages-articles.xml.bz2
  3、得到E:\wikiextractor\extracted\AA\wiki_00.bz2,解压wiki_00.bz2得到wiki_00,重命名为wiki.txt
三、下载opencc
  1、下载opencc windows版
  2、将bin目录路径添加到环境变量
四、简繁体转换
  E:\wiki\extracted\AA> opencc -i wiki.txt -o wiki_jian.txt -c E:\wiki\opencc-1.0.4-win32\opencc-1.0.4\share\opencc\t2s.json
五、分词、分字
  将wiki_jian.txt按照分词和分字两种方法进行切分,并保存到txt文件中
# 模型指标
单模型|正确率|召回率|F1值
--|--|--|--|
模型1|0.862|0.767|0.812
模型2|0.859|0.758|0.805
模型3|0.964|0.370|0.535
模型4|0.931|0.570|0.707
模型5|0.924|0.611|0.735
融合效果|正确率|召回率|F1值
--|--|--|--|
top1(sim>0.8)|0.895|0.812|0.851
top5(sim>0.6)|0.984|0.962|0.973
没有合适的资源?快使用搜索试试~ 我知道了~
2019年第十届中国大学生服务外包创新创业大赛-A14.运用文本相似度实现证券智能客服.zip
共41个文件
py:23个
csv:13个
xlsx:1个
需积分: 1 0 下载量 83 浏览量
2024-10-06
20:06:22
上传
评论
收藏 9.02MB ZIP 举报
温馨提示
2019年第十届中国大学生服务外包创新创业大赛——A14.运用文本相似度实现证券智能客服.zip2019年第十届中国大学生服务外包创新创业大赛——A14.运用文本相似度实现证券智能客服.zip2019年第十届中国大学生服务外包创新创业大赛——A14.运用文本相似度实现证券智能客服.zip2019年第十届中国大学生服务外包创新创业大赛——A14.运用文本相似度实现证券智能客服.zip2019年第十届中国大学生服务外包创新创业大赛——A14.运用文本相似度实现证券智能客服.zip2019年第十届中国大学生服务外包创新创业大赛——A14.运用文本相似度实现证券智能客服.zip2019年第十届中国大学生服务外包创新创业大赛——A14.运用文本相似度实现证券智能客服.zip2019年第十届中国大学生服务外包创新创业大赛——A14.运用文本相似度实现证券智能客服.zip2019年第十届中国大学生服务外包创新创业大赛——A14.运用文本相似度实现证券智能客服.zip2019年第十届中国大学生服务外包创新创业大赛——A14.运用文本相似度实现证券智能客服.zip2019年第十届中国大学生服务外包创新创
资源推荐
资源详情
资源评论
收起资源包目录
2019年第十届中国大学生服务外包创新创业大赛——A14.运用文本相似度实现证券智能客服.zip (41个子文件)
DSdc424
security
security
pipelines.py 289B
spiders
__init__.py 161B
zhidao.py 1KB
baidu.py 2KB
sogou.py 1KB
items.py 309B
settings.py 3KB
middlewares.py 4KB
scrapy.cfg 259B
data
pic
framework.jpg 60KB
valid
final_syn_train.csv 2.73MB
final_syn.csv 2.87MB
standard.csv 9KB
final_test.csv 217KB
final_shuffle.csv 1.55MB
compete_v1.csv 204KB
final_regroup.csv 16.35MB
invalid
baidu_extract.csv 2.53MB
dataset_all.csv 6.98MB
baidu.csv 5.55MB
zhidao.csv 4.96MB
sogou.csv 2.77MB
sogou_extract.csv 70KB
official
竞赛数据-test1.xlsx 23KB
竞赛数据-train.xls 124KB
process
step1_shuffle.py 1019B
extract.py 1KB
static.py 8KB
step3_regroup.py 2KB
step2_syn.py 3KB
model
top5_pre.py 5KB
3_cnn_layer6.py 15KB
5_lstm_gru_layer4.py 15KB
1_lstm_layer4.py 13KB
2_lstm_embedding+dense.py 14KB
4_lstm_layer2.py 13KB
top1_pre.py 5KB
wiki
w2v.py 1KB
cut.py 3KB
WikiExtractor.py 117KB
README.md 2KB
共 41 条
- 1
资源评论
嵌入式大圣
- 粉丝: 1442
- 资源: 389
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 11111111111111
- TM1206指纹模组通讯协议
- SICK西克激光DL100 GSDML-V2.25-SICK-DL100-20191106.xml
- libpam-modules-1.3.1-5ubuntu4.6-amd64.deb
- 基于Java语言的商品预导入审核页面后端设计源码
- 基于Springboot+Mybatis的社区诊所管理系统设计源码
- 基于Python和Django的HTML云记事本项目设计源码
- 基于Java语言的拼图游戏设计源码分享
- 基于中国大学MOOC的ROS-Academy-for-Beginners课程Python、C++、Shell、Lua代码设计源码
- 基于Java和JavaScript的体育馆管理系统设计源码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功