[![996.icu](https://img.shields.io/badge/link-996.icu-red.svg)](https://996.icu)
### Real_Time_DataMining_Sortware
[![Stargazers over time](https://starchart.cc/CarryChang/Real_Time_DataMining_Software.svg)](https://starchart.cc/CarryChang/Real_Time_DataMining_Software)
#### [视频演示demo](https://github.com/CarryChang/C-CNN-for-Chinese-Sentiment-Analysis/blob/master/video/demo.mp4)
#### 一款能实时进行文本挖掘的软件,不占用多余的存储空间,直接将采集后的数据集中存储在本地txt中,运用本软件无需进行大量的手动翻页操作,输入对应的店铺链接即可对民宿进行分析包含接结构化数据的可视化和非结构化UGC的情感分析,包含数据的实时采集/数据清洗/结构化保存/UGC数据主题提取/情感分析/后结构化可视化等技术的综合性演示demo。基于在线民宿UGC数据的意见挖掘项目,包含数据挖掘和NLP相关的处理,负责数据采集、整句切分、主题抽取、情感分析等任务。主要克服用户打分和评论不一致,实时对携程和美团在线民宿的满意度进行评测以及对额外数据进行可视化的综合性工具,多维度的对在线UGC进行数据挖掘并可视化,对比顾客直接打分的结果来看,运用机器学习的情感分析方法更能挖掘到详细的顾客意见和对应的合理评分。
##### 软件包含数据采集(txt_analysis/spiders)/清理/可视化(txt_analysis/picturing)部分组成,直接运行Python3 RealTime_UGC_Analysis_GUI.py 即可打开本软件的GUI界面,缺失的库按照提示进行安装即可。
<div align=center><img src="https://github.com/CarryChang/Real_Time_DataMining_Sortware/blob/master/pic/GUI_main.png"></div>
##### 主要功能包括美团/携程在线民宿UGC的原始评论采集、主题分类、实时数据清洗、文本情感分析与后结构化结果可视化展示等模块。
> 1. 使用Request模拟浏览实现了美团/携程民宿的实时自动化的采集民宿UGC内容的功能,提取后的民宿地址和在线评论等信息如下。
<div align=center><img src="https://github.com/CarryChang/Real_Time_DataMining_Sortware/blob/master/pic/meituan.png"></div>
<div align=center><img src="https://github.com/CarryChang/Real_Time_DataMining_Sortware/blob/master/pic/data_collector.png"></div>
> 2. 单一的UGC情感分析,使用清洗后的用户打分进行标注然后训练的分类模型,然后对切分后的UGC进行分类。
<div align=center><img src="https://github.com/CarryChang/Real_Time_DataMining_Sortware/blob/master/pic/best_comment_analysis.png"></div>
> 3. 对提取后的民宿主题进行UGC主题情感分析:如环境
<div align=center><img src="https://github.com/CarryChang/Real_Time_DataMining_Sortware/blob/master/pic/environment_analysis.png"></div>
> 4. 提取UGC标签,并进行量化可视化
<div align=center><img src="https://github.com/CarryChang/Real_Time_DataMining_Sortware/blob/master/pic/label.png"></div>
> 5. 单家民宿的UGC情感分析结果
<div align=center><img src="https://github.com/CarryChang/Real_Time_DataMining_Sortware/blob/master/pic/sentiment_analysis.png"></div>
<div align=center><img src="https://github.com/CarryChang/Real_Time_DataMining_Sortware/blob/master/pic/whole_emotion_analysis.png"></div>
> 6. UGC顾客打分占比
<div align=center><img src="https://github.com/CarryChang/Real_Time_DataMining_Sortware/blob/master/pic/total_score.png"></div>
> 7. 分析该民宿第二次以上的预定情况
<div align=center><img src="https://github.com/CarryChang/Real_Time_DataMining_Sortware/blob/master/pic/rebook.png"></div>
> 8. 通过数据清洗和结构化展示该民宿在不同月份的住宿情况
<div align=center><img src="https://github.com/CarryChang/Real_Time_DataMining_Sortware/blob/master/pic/time_line.png"></div>
#### 本软件包含了自己对NLP技术落地的一些实践,针对整句UGC中包含的多主题问题,使用基于词性标注的标点符号切分,将整句切分为多个分句子,然后使用主题字典1的方式对主题进行分类,工作包含数据的实时采集/数据清洗/结构化保存/UGC数据主题提取/情感分析/后结构化可视化等技术的综合性演示demo,对比顾客直接打分的结果来看,运用机器学习的情感分析方法更能挖掘到详细的顾客意见和对应的合理评分。
没有合适的资源?快使用搜索试试~ 我知道了~
Real_Time_DataMining_Software:携程榛果民宿实时评论挖掘软件,包含数据的实时采集数据清洗结构化保存 ...
共28个文件
png:10个
xml:5个
py:4个
需积分: 40 6 下载量 140 浏览量
2021-05-24
13:48:26
上传
评论 1
收藏 1.86MB ZIP 举报
温馨提示
Real_Time_DataMining_Sortware 一款能实时进行文本挖掘的软件,不占用多余的存储空间,直接将采集后的数据集中存储在本地txt中,运用本软件无需进行大量的手动翻页操作,输入对应的店铺链接即可对民宿进行分析包含接结构化数据的可视化和非结构化UGC的情感分析,包含数据的实时采集/数据清洗/结构化保存/UGC数据主题提取/情感分析/后结构化可视化等技术的综合性演示demo。基于在线民宿UGC数据的意见挖掘项目,包含数据挖掘和NLP相关的处理,负责数据采集、整句切分、主题抽取、情感分析等任务。主要克服用户打分和评论不一致,实时对携程和美团在线民宿的满意度进行评测以及对额外数据进行可视化的综合性工具,多维度的对在线UGC进行数据挖掘并可视化,对比顾客直接打分的结果来看,运用机器学习的情感分析方法更能挖掘到详细的顾客意见和对应的合理评分。 软件包含数据采集(txt_analys
资源详情
资源评论
资源推荐
收起资源包目录
Real_Time_DataMining_Software-master.zip (28个子文件)
Real_Time_DataMining_Software-master
data_source
data_source_description.txt 345B
demo_resource.txt 15KB
pic
rebook.png 21KB
best_comment_analysis.png 280KB
meituan.png 389KB
total_score.png 30KB
data_collector.png 372KB
environment_analysis.png 277KB
1.jpeg 68KB
7.jpeg 117KB
GUI_main.png 255KB
label.png 34KB
sentiment_analysis.png 24KB
time_line.png 24KB
RealTime_UGC_Analysis_GUI.py 28KB
.idea
misc.xml 288B
UGC_analysis.iml 467B
encodings.xml 193B
deployment.xml 968B
modules.xml 276B
vcs.xml 278B
LICENSE 11KB
README.md 4KB
resource.txt 135KB
txt_analysis
spider_zhenguo.py 5KB
spider_xiecheng.py 6KB
picturing.py 7KB
.gitignore 2KB
共 28 条
- 1
胜负欲
- 粉丝: 20
- 资源: 4642
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0