---
title:基于XX的旅游网站评论情感分析
tags: [python,数据分析,爬虫,NLP]
hide: true
---
# 基于xx的旅游网站情感分析
# 想法:
集成各大旅游网站平台,当用户复制某个链接到系统中,自动爬取该目标中的评论并完成分析,展示给用户
## 展示维度包括:
- 评论情感分极-
- 词云图
- 机票或景点价格预测-
- 根据出行日期判断目的地天气
- 酒店价格
## 难点:
- 适应多个网站的爬虫、反爬策略
- 评论中的转折词,比如:景点态度不好,但是风景不错,还是值得一去的。这一条应该划分到情感为正面,但是很可能因为态度不好而划分到负面
- [融合句法规则和CNN的旅游评论情感分析](https://www.cnki.com.cn/Article/CJFDTotal-SJSJ201911047.htm)
- 是不是可以根据评论中用户自己打的标签与分析出的标签做一个权重
- 价格预测
- 酒店推荐 价格
## 设计
### 爬虫
- [x] 代理池 [云函数代理池](D:/0x0documents/MarkDown文件夹/python&爬虫/云函数代理池.md)
- [ ] 途牛
- [ ] 马蜂窝
### 前端
- 暂未设计
### 后端
- 暂时选用Django
# 笔记
## 代理池
https://proxy-pool.readthedocs.io/zh/latest/user/how_to_run.html#id5
## TensorFlow.js
- https://storage.googleapis.com/tfjs-examples/sentiment/dist/index.html
## 途牛
## 评论api(挂掉了)
- https://www.tuniu.com/papi/tour/comment/product?page=2&productId=210050902&selectedType=23&firstRequest=0&stamp=0110038120372192071638846643381
- 参数
- page 页码
- productid 出游项目id
- selectedType 评论类型
- 23 精华点评
- 20 满意
- 21 一般
- 22 不满意
- 16 有图
- 1199 感觉不错
- 1200 导游不错
- ...... 可以根据接口响应看到
# 代码
## 携程
```python
```
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
毕业设计,旅游景点评论情感分析。包含携程,马蜂窝爬虫,Adaboost+bayes分类.zip (102个子文件)
.editorconfig 147B
.gitignore 496B
.gitignore 108B
.gitkeep 0B
index.html 2KB
result.html 2KB
index.template.html 991B
favicon.ico 63KB
light.jpg 418KB
quasar.conf.js 7KB
axios.js 1KB
index.js 1000B
routes.js 737B
babel.config.js 244B
.postcssrc.js 200B
package.json 990B
jsconfig.json 565B
extensions.json 276B
settings.json 95B
yarn.lock 267KB
README.md 2KB
README.md 458B
README.md 371B
index.png 591KB
dark.png 349KB
favicon-128x128.png 12KB
favicon-96x96.png 9KB
favicon-32x32.png 2KB
favicon-16x16.png 859B
bayes_train.py 11KB
AdaBoost_train.py 10KB
xc_utils.py 8KB
views.py 5KB
settings.py 4KB
mfw_utils.py 3KB
0001_initial.py 2KB
models.py 2KB
urls.py 799B
manage.py 660B
utils.py 622B
0006_original_product_spyder_date.py 505B
0004_picture_hash.py 500B
0005_original_comments_tokscore.py 467B
0003_alter_original_comments_comment_content.py 456B
0002_alter_original_comments_commentid.py 432B
urls.py 411B
wsgi.py 385B
asgi.py 385B
TimeFormat.py 256B
proxy.py 223B
apps.py 157B
admin.py 63B
tests.py 60B
__init__.py 43B
__init__.py 0B
__init__.py 0B
__init__.py 0B
__init__.py 0B
__init__.py 0B
__init__.py 0B
__init__.py 0B
xc_utils.cpython-39.pyc 5KB
settings.cpython-39.pyc 2KB
views.cpython-39.pyc 2KB
models.cpython-39.pyc 2KB
0001_initial.cpython-39.pyc 2KB
urls.cpython-39.pyc 974B
manage.cpython-39.pyc 806B
0003_alter_original_comments_comment_content.cpython-39.pyc 700B
0002_alter_original_comments_commentid.cpython-39.pyc 669B
proxy.cpython-310.pyc 548B
proxy.cpython-39.pyc 546B
wsgi.cpython-39.pyc 543B
urls.cpython-39.pyc 465B
apps.cpython-39.pyc 445B
TimeFormat.cpython-39.pyc 385B
admin.cpython-39.pyc 196B
__init__.cpython-39.pyc 195B
__init__.cpython-310.pyc 188B
__init__.cpython-39.pyc 186B
__init__.cpython-310.pyc 182B
__init__.cpython-39.pyc 180B
__init__.cpython-39.pyc 166B
__init__.cpython-39.pyc 144B
quasar.variables.scss 808B
app.scss 31B
quasar-logo-vertical.svg 4KB
quasar.d.ts 397B
dict.txt.small.txt 1.48MB
stop.txt 6KB
requirements.txt 4KB
end.vue 14KB
barChart.vue 4KB
PieChart.vue 4KB
Result.vue 3KB
wordChart.vue 3KB
submit.vue 2KB
Index.vue 1KB
MainLayout.vue 910B
Error404.vue 571B
共 102 条
- 1
- 2
资源评论
JJJ69
- 粉丝: 6353
- 资源: 5918
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android四种Activity的加载模式最新版本
- androidcamera(一)camera模组CMM介绍2.55MB最新版本
- Android-listview与adapter用法最新版本
- android修改system.img方法最新版本
- PID控制pidarduino库源码.rar
- Win7安装Android-Studio方法详解最新版本
- C++ 智能指针家族中的黄金搭档:std::shared-ptr 与 std::weak-ptr 协同工作机制全解析
- 基于中科院seetaface2进行封装的JAVA人脸识别算法库,支持人脸识别、1:1比对、1:N比对 seetaface2
- YOLOv3 多尺度方法改进与特征融合的深度探索与实现
- 小程序修改-网易云音乐.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功