### 基于东方财富宏观研究的研报分类系统
东方财富宏观研究网址:http://data.eastmoney.com/report/hgyj.html
#### 代码结构
一、该系统是由以下几步组成:
(1)爬虫 (2)文本处理 (3)word2vec词向量训练 (4)Lstm模型训练 (5)基于模型的新文本预测
二、运行该系统需要安装的包
(1)爬虫中需要安装:selenium和PhantomJS,本人的安装环境是mac下的anaconda,安装过程可以参考:https://blog.csdn.net/lilong117194/article/details/83277075 (2)word2vec的训练过程,需要安装的包有jieba,这个包的安装很简单。 (3)lstm的训练过程,需要安装tensorflow和keras,mac下的安装也很简单
三、各个.py文件的说明
(1)reptile.py:爬虫文件 下面是各个函数的说明
get_page_url(self,url,num):模拟鼠标点击网页,获取指定页的网址。 参数url:网页地址,num:指定的网页数,也即是第几页,如下所示 在这里插入图片描述
download_report(self,text_link,re_sum_info):下载指定网页的研报文本。
get_report_page(self,page_start,page_end):以起始和终止页面数为爬取标准
get_report_date(self,start_date,end_date):以起始和终止时期为爬取标准
(2)del_Ds_store.py:辅助文件,该文件的作用是删除mac系统下自动生成的.Ds_store文件,不去除的话会影响文本处理(windows下不会生成该文件)。 (3)filename_mod.py:辅助文件,该文件的作用是给新增的人工打标签重新命名,然后加入打过标签的文本库。 (4)interface.py:接口文件,即其他文件会调用该文件的函数
__init__(self):大部分的参数调整都在这里
tokenizer(self,text):对文本分词并去掉空格
load_w2v_file(self,w2v_file_path):加载训练文件
text_proce(self,text_raw):# 对文本进行处理
file_test_vec(self,w2indx,file_reshape):测试文本的向量化
(5)word2vec.py:词向量训练文件
word2vec_train(self,combined):词向量训练
create_dictionaries(self,model=None,combined=None):创建词语字典,并返回每个词语的索引,词向量,以及每个句子所对应的词语索引
test(self):该文件仅做测试用 (6)lstm.py:lstm模型的训练
splice_data(self,path):该函数初步处理训练数据
load_train_file(self):拼接训练文件和文件的标签
parse_dataset(self,combined):得到每篇文本在词典中的索引列表
train_data_struc(self,combined):lstm模型训练数据的结构化
get_train_data(self,word_index,word_vectors,struc_w2index,y): index_dict:所有的词索引列表(词:索引), word_vectors:所有词的词向量, combined:所有文本的索引值。该函数得到的结果才是用于lstm网络结构的结构化数据
train_lstm:网络训练函数,网络的参数也是在这里调试。
(7)main_test.py:这里是总的调用,爬虫、词向量训练、lstm模型训练、新文本预测都是在这个文件里。
(8)terminal.py:该文件主要是预测新文本分类,也是最简单的接口调用。
四、各个文件夹的说明
spider_report:该文件夹下是爬取的6000个研报文本,主要用于词向量的训练。 word2vec_model:是word2vec训练保存的数据和模型 train_data:用于进行lstm训练的打过标签的文本 lstm_model:是lstm训练保存的数据和模型 test_report:爬取的用于预测的文本 测试代码:辅助处理文本的一些代码。
#### 安装包bug说明
(1)mac 下安装homebrew: https://www.jianshu.com/p/e0471aa6672d?utm_campaign=hugo
(2)mac brew install卡住: https://www.jianshu.com/p/f7cb08c50707
(3)mac 安装npm: brew install node
报错参考
* https://zhuanlan.zhihu.com/p/64125228
* https://www.freesion.com/article/1914390492/
* https://blog.csdn.net/guo_qiangqiang/article/details/104211087
(4)"Selenium Python Headless Webdriver (PhantomJS) Not Working"
https://stackoverflow.com/questions/54133200/phantomjs-with-selenium-message-phantomjs-executable-needs-to-be-in-path
(5) Mac安装Chromedriver
https://www.jianshu.com/p/a9df5135a3a3
(6) mac下anaconda安装selenium+PhantomJS
https://blog.csdn.net/lilong117194/article/details/83277075?spm=1001.2101.3001.6650.3&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-3.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-3.nonecase
(7) 无法打开“chromedriver”,因为无法验证开发者。
https://www.cnblogs.com/may18/p/15237666.html
没有合适的资源?快使用搜索试试~ 我知道了~
爬取东方财富的宏观研究的研报,基于LSTM进行情感分析,分类为正向、负向和中性三类.zip
共2001个文件
txt:1997个
md:2个
py:1个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 174 浏览量
2024-05-22
19:07:11
上传
评论
收藏 166.11MB ZIP 举报
温馨提示
爬取东方财富的宏观研究的研报,基于LSTM进行情感分析,分类为正向、负向和中性三类LSTM (Long Short-Term Memory) 是一种特殊的循环神经网络(RNN)架构,用于处理具有长期依赖关系的序列数据。传统的RNN在处理长序列时往往会遇到梯度消失或梯度爆炸的问题,导致无法有效地捕捉长期依赖。LSTM通过引入门控机制(Gating Mechanism)和记忆单元(Memory Cell)来克服这些问题。 以下是LSTM的基本结构和主要组件: 记忆单元(Memory Cell):记忆单元是LSTM的核心,用于存储长期信息。它像一个传送带一样,在整个链上运行,只有一些小的线性交互。信息很容易地在其上保持不变。 输入门(Input Gate):输入门决定了哪些新的信息会被加入到记忆单元中。它由当前时刻的输入和上一时刻的隐藏状态共同决定。 遗忘门(Forget Gate):遗忘门决定了哪些信息会从记忆单元中被丢弃或遗忘。它也由当前时刻的输入和上一时刻的隐藏状态共同决定。 输出门(Output Gate):输出门决定了哪些信息会从记忆单元中输出到当前时刻的隐藏状态中。同样地,它也由当前时刻的输入和上一时刻的隐藏状态共同决定。 LSTM的计算过程可以大致描述为: 通过遗忘门决定从记忆单元中丢弃哪些信息。 通过输入门决定哪些新的信息会被加入到记忆单元中。 更新记忆单元的状态。 通过输出门决定哪些信息会从记忆单元中输出到当前时刻的隐藏状态中。 由于LSTM能够有效地处理长期依赖关系,它在许多序列建模任务中都取得了很好的效果,如语音识别、文本生成、机器翻译、时序预测等。
资源推荐
资源详情
资源评论
收起资源包目录
爬取东方财富的宏观研究的研报,基于LSTM进行情感分析,分类为正向、负向和中性三类.zip (2001个子文件)
.DS_Store 8KB
README.md 5KB
README.md 2KB
reptile.py 9KB
523.txt 13KB
429.txt 13KB
413.txt 10KB
1642.txt 8KB
24.txt 8KB
965.txt 8KB
4572.txt 7KB
2790.txt 7KB
5649.txt 7KB
1764.txt 7KB
2901.txt 7KB
963.txt 6KB
3262.txt 6KB
2646.txt 6KB
2350.txt 6KB
78.txt 6KB
5549.txt 6KB
5145.txt 6KB
152.txt 6KB
1836.txt 6KB
4439.txt 6KB
3738.txt 6KB
514.txt 6KB
4420.txt 6KB
5698.txt 5KB
2915.txt 5KB
9.txt 5KB
2428.txt 5KB
5300.txt 5KB
2811.txt 5KB
3313.txt 5KB
4694.txt 5KB
3070.txt 5KB
1148.txt 5KB
2121.txt 5KB
1101.txt 5KB
3111.txt 5KB
94.txt 5KB
2688.txt 5KB
5037.txt 5KB
5263.txt 5KB
3298.txt 5KB
4912.txt 5KB
218.txt 5KB
1343.txt 5KB
682.txt 5KB
3113.txt 5KB
1841.txt 5KB
4875.txt 5KB
5166.txt 4KB
596.txt 4KB
4111.txt 4KB
3669.txt 4KB
4468.txt 4KB
1201.txt 4KB
4830.txt 4KB
4987.txt 4KB
2201.txt 4KB
3305.txt 4KB
1046.txt 4KB
248.txt 4KB
2134.txt 4KB
2014.txt 4KB
2949.txt 4KB
2089.txt 4KB
5734.txt 4KB
2686.txt 4KB
679.txt 4KB
194.txt 4KB
1945.txt 4KB
2460.txt 4KB
2672.txt 4KB
1306.txt 4KB
2938.txt 4KB
2565.txt 4KB
3578.txt 4KB
4432.txt 4KB
392.txt 4KB
2731.txt 4KB
291.txt 4KB
1374.txt 4KB
116.txt 4KB
978.txt 4KB
2726.txt 4KB
5709.txt 4KB
4932.txt 4KB
1748.txt 4KB
2564.txt 4KB
5109.txt 4KB
2136.txt 4KB
3294.txt 4KB
13.txt 4KB
1351.txt 4KB
2088.txt 4KB
726.txt 4KB
730.txt 4KB
共 2001 条
- 1
- 2
- 3
- 4
- 5
- 6
- 21
资源评论
生瓜蛋子
- 粉丝: 3829
- 资源: 6140
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于python的rpa管理系统 (4).zip
- 基于python的rpa管理系统 (3).zip
- scrollCue.js 一款效果很nice的JavaScript插件,页面滚动时多种动画效果显示页面内容
- 基于python的rpa管理系统 (2).zip
- 基于python的rpa管理系统 .zip
- 全球国家及首都经纬度.xlsx
- 前端js模拟微信截图涂鸦
- prettyZoo-win-v2.1.1.msi (0积分下载,Zookeeper 可视化工具)
- Java健身房会员管理系统案例介绍:管理会员信息、健身课程预约、健身成绩统计等功能
- Java音乐播放器案例介绍:支持音乐文件的播放、管理歌单和收藏等
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功