<h1 id="chatbot" align="center">chatbot</h1>
<p align="center">
<a href="https://www.python.org/">
<img src="https://img.shields.io/badge/python-3.5%20%7C%203.6%20%7C%203.7-blue" alt="Pyhton 3">
</a>
<a href="http://www.apache.org/licenses/">
<img src="https://img.shields.io/badge/license-Apache-blue" alt="GitHub">
</a>
<a href="https://github.com/ximingxing/chatbot/pulls">
<img src="https://img.shields.io/static/v1.svg?label=Contributions&message=Welcome&color=0059b3&style=flat-square" alt="welcome">
</a>
</p>
<p align="center">
<a href="#clipboard-getting-started">快速开始 - Getting Started</a> •
<a href="#table-of-contents">内容 - Table of Contents</a> •
<a href="#about">关于 - About</a> •
<a href="#acknowledgment">鸣谢 - Acknowledgment</a> •
<a href="#speech_balloon-faq">问题 - FAQ</a> •
</p>
<h6 align="center">Made by ximing Xing • :milky_way:
<a href="https://ximingxing.github.io/">https://ximingxing.github.io/</a>
</h6>
智能聊天机器人作为自然语言处理的一个重要分支,是目前最火热也最具挑战的研究方向,它对于促进人机交互方式的发展有着重要的意义。
本项目基于Encoder-decoder模型,以及在此基础上完成的聊天机器人系统。
最后,给出了参考的开源代码以及可使用的数据以供读者使用
本项目可用作学习使用或毕业设计,相关问题可与我联系。
Open Source runs on love, laughter and a whole lot of coffee.
Consider buying me one if you find this content useful ☕️😉.
<h2 align="center">:clipboard: 快速开始 - Getting Started</h2>
1. 执行`cd chatbot` -- cd to the directory where requirements.txt is located
2. 开启你的虚拟环境(conda env) -- activate your virtualenv
3. 在激活后的conda环境中执行`pip install -r requirements.txt` -- run: `pip install -r requirements.txt` in your shell
**至此,你已经安装了本项目所需要的[全部环境](#speech_balloon-faq)**
4. 执行`cd src/chatbot_quick_start`
**在训练模型前一定要先下载数据,可在`CONFIG.py`中的`"path": "data/xiaohuangji50w_fenciA.conv"`处指定路径**
5. 执行`python Train.py`, 模型训练
模型超参数保存在`CONFIG.py`
6. 模型训练结束后,运行`RestfulAPI.py`启动web服务
7. 访问`localhost:8000/api/chatbot?infos=你好` 即可看到回复
<h2 align="center">内容 - Table of Contents</h2>
<p align="right"><a href="#chatbot"><sup>▴ Back to top</sup></a></p>
**如果你想了解`快速开始`中的详细内容,可以阅读这个环节**
1. `extract_conv.py`or`new_extract_conv.py` 解压并预处理语料文件
* `raw_data/` : 用于存放原始语料(.conv格式)
* `data/` : 预处理后的语料 (.pickle格式)
2. `params.json` 模型超参数
3. `word_sequence.py` 对文本分词并编码
4. `seq_to_seq.py` attentive Encoder-Decoder with LSTM
5. `train.py`or`anti_train.py` 训练模型
* model/ : 存放训练好的模型
6. `test.py` 测试模型
7. `web.py` 提供restful接口的api
**对于传统机器学习方法,本项目也给出了一个基于chatterbot的示例**
* 位于`src/serach_bot/bot.py`中
如果读者感兴趣可以在[这里](https://chatterbot.readthedocs.io/en/stable/setup.html)看到更多信息
**完整的项目 -- 安卓智能聊天机器人**
`ChatInterface\` 目录下是关于安卓界面的源文件,使用Android studio打开并编译此目录即可得到App文件,
这里我是用NOX(夜神模拟器)虚拟安卓系统,并基于NOX进行APP测试,NOX Debug脚本位于`ChatInterface/nox.bat`
(对应windows系)
<h2 align="center">关于 - About</h2>
* 数据 -- 使用互联网公开的数据集:
* 中文电影对话 dgk_shooter_min.conv
* 小黄鸡语料 xiaohuangji50w_fenciA.conv
**你可以在[这里](https://github.com/candlewill/Dialog_Corpus)找到数据**
* NLP相关
* Word embedding 词嵌入
词嵌入(Word embedding)又被称为词表示(Word representation),每个单词套用该模型后可以转换为一个实数,且每个实数对应词典中的一个特定单词。
它是一种用于在低维的词向量空间中用来学习深层的单词表示的技术,通过对词汇量的扩大,可以很大地提升训练速度,因为会通过在词嵌入空间中非常相近的单词来共享一些信息。
常用的词嵌入模型有 Word2Vec,该模型是由包含了由一千多亿单词组成的 Google 新闻数据训练的,并且被证明该模型在一个非常广泛的数据集上展现出了强有力的信息。
* Encoder-decoder 加解密模型
![Encoder-Decoder](https://github.com/learnmedicalcantsavecn/chatbot/blob/master/img/encoder-decoder.png)
在以往的研究中,我们会发现实际上智能对话系统问题可以被很好地应用到的自然语言的机器翻译框架中,我们可以将用户提出的问题作文输入机器翻译模型的源序列,
系统返回的答案则可以作为翻译模型的目标序列。因此,机器翻译领域相对成熟的技术与问答系统所需要的框架模型有了很好的可比性,Ritter 等人借鉴了统计机器翻译的手段,
使用 Twitter 上的未被结构化的对话数据集,提出了一个问答生成模型的框架。
Encoder-decoder 框架目前发展较为成熟,在文本处理领域已经成为一种研究模式,可应用场景十分广泛。
它除了在已有的文本摘要提取、机器翻译、词句法分析方面有很大的贡献之外,在本课题中,也可以被应用到人机对话和智能问答领域。
* Attention 注意力机制
![Attention](https://github.com/learnmedicalcantsavecn/chatbot/blob/master/img/attention.png)
Attention 结构的核心优点就是通过在模型“decoder”阶段对相关的源内容给予“关注”,从而可以在目标句子和源句子之间建立直接又简短的连接,解决机器人模型和用户之间的信息断层问题。
注意力机制如今作为一种事实标准,已经被有效地应用到很多其他的领域中,比如图片捕获生成,语音识别以及文字摘要等。
在传统 seq2seq 模型的解码过程中,“encoder”加密器的源序列的最后状态会被作为输入,直接传递到“decoder”解码器。
直接传递固定且单一维度的隐藏状态到解码器的方法,对于简短句或中句会有较为可观的效果,却会成为较长的序列的信息瓶颈。
然而,不像在 RNN 模型中将计算出来的隐藏层状态全部丢弃,注意力机制为我们提供了一种方法,可以使解码器对于源序列中的信息选择重点后进行动态记忆。
也就是说,通过注意力机制,长句子的翻译质量也可以得到大幅度的提升。
<h2 align="center">Acknowledgment</h2>
<p align="right"><a href="#chatbot"><sup>▴ Back to top</sup></a></p>
感谢这些Paper给了我启示:
* [智能聊天机器人的技术综述](https://github.com/ximingxing/chatbot/blob/master/paper/%E6%99%BA%E8%83%BD%E8%81%8A%E5%A4%A9%E6%9C%BA%E5%99%A8%E4%BA%BA%E7%9A%84%E6%8A%80%E6%9C%AF%E7%BB%BC%E8%BF%B0.pdf)
* [AliMe Chat A Sequence to Sequence and Rerank based Chatbot Engine](https://github.com/ximingxing/chatbot/blob/master/paper/AliMe%20Chat%20A%20Sequence%20to%20Sequence%20and%20Rerank%20based%20Chatbot%20Engine.pdf)
* [Neural Responding Machine for Short-Text Conversation](https://github.com/ximingxing/chatbot/blob/master/paper/Neural%20Responding%20Machine%20for%20Short-Text%20Conversation.pdf)
* [Sequence to Sequence Learningwith Neural Networks](https://github.com/ximingxing/chatbo
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
智能聊天机器人作为自然语言处理的一个重要分支,是目前最火热也最具挑战的研究方向,它对于促进人机交互方式的发展有着重要的意义。 本项目基于Encoder-decoder模型,以及在此基础上完成的聊天机器人系统。 最后,给出了参考的开源代码以及可使用的数据以供读者使用 本项目可用作学习使用或毕业设计,相关问题可与我联系。 <项目介绍> 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 -------- --------------------------------------
资源推荐
资源详情
资源评论
收起资源包目录
一个基于深度学习的中文聊天机器人,这里有详细的教程与代码,每份代码都有详细的注释 (144个子文件)
grammar_sample.abnf 158B
nox.bat 77B
taskHistory.bin 2MB
classAnalysis.bin 885KB
fileHashes.bin 541KB
taskHistory.bin 472KB
jarAnalysis.bin 358KB
taskJars.bin 35KB
outputFiles.bin 24KB
resourceHashesCache.bin 20KB
last-build.bin 1B
call.bnf 313B
checkpoint 101B
s2ss_chatbot.ckpt.data-00000-of-00001 63.91MB
.gitignore 1KB
build.gradle 894B
build.gradle 546B
settings.gradle 15B
s2ss_chatbot.ckpt.index 2KB
okhttp-3.9.0.jar 396KB
Msc.jar 314KB
Sunflower.jar 94KB
okio-1.13.0.jar 80KB
gradle-wrapper.jar 53KB
ChatActivity.java 22KB
JsonParser.java 3KB
HttpUtils.java 3KB
BaseActivity.java 2KB
SettingTextWatcher.java 2KB
IatSettings.java 1KB
SystemUtils.java 1KB
ChatApplication.java 920B
WelcomeActivity.java 918B
StringUtils.java 789B
StatusBarView.java 485B
bg_1.jpg 22KB
bg_2.jpg 18KB
chat_bg_default.jpg 16KB
man.jpg 4KB
god.jpg 3KB
params.json 275B
params.json 275B
keys 10KB
LICENSE 11KB
buildOutputCleanup.lock 17B
javaCompile.lock 17B
taskHistory.lock 17B
fileContent.lock 17B
fileHashes.lock 17B
README.md 9KB
s2ss_chatbot.ckpt.meta 1.98MB
智能聊天机器人的技术综述.pdf 802KB
AliMe Chat A Sequence to Sequence and Rerank based Chatbot Engine.pdf 717KB
Neural Responding Machine for Short-Text Conversation.pdf 445KB
Sequence to Sequence Learningwith Neural Networks.pdf 109KB
sentence_tokenizer.pickle 24KB
encoder-decoder.png 150KB
attention.png 131KB
voice_full.png 16KB
ic_launcher_round.png 15KB
voice_empty.png 14KB
waiting.png 12KB
ic_launcher_round.png 10KB
user.png 10KB
ic_launcher.png 9KB
warning.png 8KB
ic_launcher_round.png 7KB
ic_launcher.png 6KB
ic_launcher_round.png 5KB
ic_launcher.png 4KB
chat_air_right.9.png 4KB
char_airplane.png 4KB
ic_launcher.png 3KB
ic_launcher_round.png 3KB
ic_launcher.png 2KB
user_2.png 2KB
user_3.png 2KB
user_1.png 2KB
voice_bg.9.png 1KB
left_c_green.png 1006B
right_c_green.png 993B
right_c_blue.png 971B
left_c_blue.png 968B
chat_air_left.9.png 751B
right_s_green.png 689B
left_s_green.png 676B
right_s_blue.png 665B
left_s_blue.png 620B
char_plus.png 507B
proguard-rules.pro 808B
local.properties 437B
gradle-wrapper.properties 230B
cache.properties 49B
seq_to_seq.py 39KB
SequenceToSequence.py 16KB
data_utils.py 8KB
DataProcessing.py 7KB
word_sequence.py 5KB
train_anti.py 5KB
extract_conv.py 4KB
共 144 条
- 1
- 2
资源评论
机智的程序员zero
- 粉丝: 1593
- 资源: 4137
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功