# financial-spider-data-analysis
# 金融爬虫与数据分析
本项目功能为爬取指定股票的新浪财经数据与东方财富股吧舆论数据,作情感分析与数据分析后,自动生成docx格式分析报告,并发送至指定邮箱。
本项目录制了配套视频讲解教程,发布在b站上,地址为:
1. 爬虫部分:https://www.bilibili.com/video/BV19D4y1g7Yp/
2. 数据分析与存储部分:https://www.bilibili.com/video/BV1is4y1V7mw/
3. 报告分析与邮件发送部分:https://www.bilibili.com/video/BV1CM4y1B7xx/
## 使用方法
### 本地运行
在执行程序前,需要在以下文件中配置相关参数:
- tools/config.py
```
import pymysql
class MyMysql:
def __init__(self):
self.connect = pymysql.connect(
host=Mysql服务IP地址,
port=Mysql数据库端口,
user=数据库用户名,
password=数据库密码,
database=数据库名,
charset='utf8'
)
self.cursor = self.connect.cursor()
```
其中,数据库应按照如下结构建立:
![image](https://github.com/Anton-Mu/finance_spider_data_analysis/blob/main/guba_struc.png)
![image](https://github.com/Anton-Mu/finance_spider_data_analysis/blob/main/sina_struc.png)
![image](https://github.com/Anton-Mu/finance_spider_data_analysis/blob/main/ua_struc.png)
其中,数据库ua_pool为用于生成随机请求头user_agent的库,需要在建立完成数据库后导入位于文件根目录下的```ua_pool.sql```文件数据。
如果需要实现邮件发送功能,则还需要配置如下参数:
- data_process/email_send.py
```
import smtplib
from email.mime.application import MIMEApplication
from email.mime.text import MIMEText
from email.mime.multipart import MIMEMultipart
def send_email():
user = '发件人邮箱@qq.com'
pwd = 'QQ邮箱的SMTP授权码'
to = '收件人邮箱@qq.com'
...
```
在完成上述配置后,运行```data_process/whole_process.py```即可自动开始爬取分析,并生成分析报告。分析报告位于```docs```文件夹下。修改该文件中```process_data```函数参数为其他股票代码,即可对其他指定股票进行爬取分析工作。例如,对于隆基股份则应在```data_process/whole_process.py```中执行
```
process_data('sh601012')
```
### 服务器部署
该部分说明后续更新。
## 注意事项
1. 搭建数据库时应与上述图片内结构相同。由于数据库查重功能部分依赖数据库中键的设置实现,因此改变结构可能导致程序部分功能出错。
2. 数据爬取分析与报告生成的运行最佳时间为晚间18:00-23:00间,数据采集相对更加全面有效。
3. 如果手动高频爬取东方财富股吧数据,可能导致服务器暂时封禁ip。可以自行挂代理或者等待一段时间后再次尝试。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
【完整视频教程】东财股吧、新浪财经爬虫,情感分析并自动生成发送舆情分析报告.zip (30个子文件)
SJT-code
tools
ua.py 1KB
config.py 365B
spider
sina_finance.py 2KB
eastmoney_guba.py 3KB
ua_struc.png 45KB
main.py 570B
sina_struc.png 80KB
guba_struc.png 183KB
ua_pool.sql 50.94MB
.idea
finance_analysis_edu.iml 284B
misc.xml 185B
inspectionProfiles
profiles_settings.xml 174B
modules.xml 292B
.gitignore 182B
docs
pics
news_pie.jpg 15KB
guba_pie.jpg 15KB
舆情分析报告.docx 70KB
sentiment
dict_analysis.py 4KB
snownlp_analysis.py 106B
README.md 3KB
data_process
email_send.py 1019B
whole_process.py 700B
score_store.py 2KB
report_generate.py 18KB
dict
程度副词.txt 2KB
financial_sentiment_score.txt 110KB
否定词.txt 482B
新停用词.txt 9KB
停用词.txt 9KB
BosonNLP_sentiment_score.txt 2.41MB
共 30 条
- 1
资源评论
- Ultrasilent2024-04-17资源不错,很实用,内容全面,介绍详细,很好用,谢谢分享。
JJJ69
- 粉丝: 6225
- 资源: 5778
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- baiduwenku_AndroidPhone_1026594r.apk
- 基于Vue的校园互帮互助平台设计源码 - zbb-web
- 医药行业缺陷检测小例子
- 单片机小精灵,该软件可以提升编写软件效率哦
- C程序语言设计 课程设计-万年历程序
- 基于Vue和CSS的泛康云诊所前端设计源码
- stc15xx-STC8-sch-pcb-library-ver1.0 STC单片机的原理图和PCB库文件资料
- 基于Scala的微服务架构后台服务设计源码 - biBACK
- 基于Javascript和.NET5.0的MVC音乐爬虫系统设计源码 - LisMusic
- 基于Java的日志推送appender设计源码 - logback-push-appender
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功