# Domain_QA
限定域问答系统包括:自动构建知识库、问句检索、基于微信平台搭建问答系统。本项目所有代码已开源。
用户通过简单配置,可以实现快速自动化搭建一个比较完备的领域知识库。另外,基于微信平台如何通过配置来搭建问答系统,具体操作见readme.md
1 申请微信公众号(订阅号/服务号)
2 使用云服务器/Tomcat+花生壳 搭建本地服务器
3 配置微信公众平台接口。并利用源码中的:微信接口认证代码进行验证
4 提供“领域名”+“领域网站”,利用源码中的:spider-领域网站源码爬取领域网站语料,为自动抽取领域实体词准备语料
5 将领域网站语料提取正文并做分词
6 采用word2vec对上述语料进行训练,得到模型model
7 利用model及种子术语seed,获取候选术语
8 计算候选术语和种子术语的similar相似度,设置相似度阈值为0.6,对候选术语进行过滤
9 得到领域术语文件 seedfile.txt
10 结合seedfile.txt ,采用源码中的:spider-百科、spider-问答社区爬虫源码自动构建该领域知识库。
11 基于lucene对关系型领域知识库建立倒排索引
12 获取用户问句,对用户问句进行分析,获取关键词及限定词等
13 根据倒排索引及关键词获取初期候选问题集
14 结合问句匹配特征对候选问题集重新排序
15 将各个部分进行连接测试,完成限定域问答系统的搭建
16 总结:自动化构建领域知识库、基于领域知识库及在线社区进行问句检索、调试微信服务器及本地服务器、对用户问句进行分析,共4大模块
开发环境
处理器:Intel(R)Core(TM)i5-2400 Cpu@ 3.10GHz 3.10Ghz 安装内存(RAM):6.00GB
系统类型:win32 硬盘:195GB
使用语言:JAVA、Python IDE:Eclipse、Myeclipse、python27
服务器:Tomcat、花生壳 客户端:微信客户端
数据库:Mysql 数据库管理:PhpAdmin
网络通信: HITSZ 校内网(单个模块运行)、基于花生壳的公网(系统运行)
测试方法:单元测试、集成测试、回归测试、系统测试、黑盒测试、白盒测试
其他:微信公众平台API、Jsoup解析包、Dom解析包、phpAdmin关系型数据库管理客户端、Gensim开源工具包、Hanlp 开源工具包、Lucene开源工具包、Github托管等
文件指定位置:
E:\QA_database\website-knowledge
E:\QA_database\website-正文
E:\QA_database\website-正文预处理
E:\QA_database\QACommunity_搜搜问问
E:\QA_database\baike_infobox知识
E:\QA_database\baike
邮箱:[email protected] liqianqian 如有其它问题,可联系作者。
毕设&课设&项目&实训-限定域问答系统包括.zip
版权申诉
95 浏览量
2024-02-09
11:37:41
上传
评论
收藏 20.21MB ZIP 举报
妄北y
- 粉丝: 1w+
- 资源: 1万+
最新资源
- JAVA实现Modbus RTU或Modbus TCPIP案例.zip
- 基于YOLOv8的FPS TPS AI自动锁定源码+使用步骤说明.zip
- JAVA实现Modbus RTU或Modbus TCPIP案例.zip
- 基于yolov8+streamlit的火灾检测部署源码+模型.zip
- 测试aaaaaaabbbbb
- VID20240521070643.mp4
- Android系统原理与开发学习要点详解-培训课件.zip
- 部署yolov8的tensorrt模型支持检测分割姿态估计的C++源码+部署步骤.zip
- 以简单、易用、高性能为目标、开源的时序数据库,支持Linux及Windows, Time Series Database.zip
- python-leetcode面试题解之第198题打家劫舍-题解.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈