## 0.快速开始
- 挑战杯项目:金融文本情感分析模型 || Challenge Cup Project: Financial Text Emotion Analysis Model
- 金融领域短文本情感分析
- 配置要求:`python 3.x`
## 1.使用方法
### 1.0 下载
```shell
sudo git clone https://github.com/AsuraDong/news-emotion.git news_emotion
mv -R ./news_emotion/ 你的程序路径/
```
### 1.1 文件结构
```python
clean_data/ # 清洗数据
__init__.py
clean_html.py # 清洗网页标签
langconv.py # 简体和繁体转化
zh_wiki.py # 简体和繁体转化
data/ # 存放训练集和词典
emdict/ # 存放词典
material/
emotion_word.py # 知网情感词典
stopword.txt # 中文停用词典
NTUSD_simplified/ # 台湾大学NTUSD情感词典
...
collect_dict.py # 生成之后程序需要的plk和用户词典
trainset/ # 存放训练集
...
model/ # 我们训练好的model模型
wordfreq_logistic.ml
other/ # 根据具体情况自行添加
...
result/ #结果展示
log/
best_model/ # 针对最好的模型的详细信息
PR.json
error_tag.json
ml_rate.plk
logfile.plk
3plus3arr.plk
show/ # 组合模型的全部结果
result.csv
result.xlsx
vector/ # 文本翻译后的词向量
result.csv
result.xlsx
__init__.py
loocv_model.py # 对组合模型进行留一验证,并且将结果写入csv和excel文件
ml_model.py # 集成sklearn常用的自然语言的机器学习模型
operate_data.py # 将文本处理成词向量,并且保存了logfile.plk
README.md
demo.py # 使用者(非开发者)调用框架的样例
run_best.py # 人工找出loocv_model.py的最好结果后,进行最好模型的更详细分析
```
### 1.2 使用方法
**请参照`demo.py`的代码**
1. 打开`demo.py`
2. 如果:
- **直接使用我们训练好的模型,在`if __name__=='__main__':`里面输入:**
```python
od.loadStopwords()
od.loadEmotionwords()
od.loadWords(od.stopList)
od.loadDocument(od.stopList)
##### 单例模式 #####
predictor = Predictor()
predictor.load_model()
predictor.set_mode(mode="wordfreq") # 以上代码是初始化配置,只需要调用一次
##### 下面的代码可以循环调用 #####
news = " 《经济通通讯社13日专讯》日股早市偏软,日经225指数报18312跌239点。 美元兑日圆疲软,新报108﹒78╱80。(tt)" # 这是您的新闻样本
predictor.set_news(news=news)
predictor.trans_vec()
tag = predictor() # 分类结果
```
- 需要重新训练模型,那么在配置好`1.1`的文件后,在`if __name__=='__main__':`里面输入:
```python
best_vector = "wordfreq"
best_model = 1 # linearLogistic
save_model(best_vector, best_model)
##### 单例模式 #####
predictor = Predictor()
predictor.load_model()
predictor.set_mode(mode="wordfreq") # 以上代码是初始化配置,只需要调用一次
##### 下面的代码可以循环调用 #####
news = " 《经济通通讯社13日专讯》日股早市偏软,日经225指数报18312跌239点。 美元兑日圆疲软,新报108﹒78╱80。(tt)" # 这是您的新闻样本
predictor.set_news(news=news)
predictor.trans_vec()
tag = predictor()
```
3. 成功后,相信你也差不多理解框架的用法,请尽情使用吧。
## 2. 联系我
WeChat:IT_xxx<br>
QQ:2592324965<br>
**Email:xiaochiyijiu@163.com**<br>
没有合适的资源?快使用搜索试试~ 我知道了~
进行无监督/半监督学习的数据ETL与特征工程
共175个文件
py:61个
txt:37个
pyc:31个
需积分: 0 0 下载量 166 浏览量
2023-02-08
12:58:22
上传
评论
收藏 7.72MB ZIP 举报
温馨提示
基于分布式爬虫,采集互联网公开来源的金融类新闻和文档类文本; 基于文本挖掘技术,进行无监督/半监督学习的数据ETL与特征工程; 基于金融数据挖掘技术,进行宏观经济分析,基本面分析与行业分析
资源推荐
资源详情
资源评论
收起资源包目录
进行无监督/半监督学习的数据ETL与特征工程 (175个子文件)
scrapy.cfg 262B
scrapy.cfg 260B
scrapy.cfg 254B
scrapy.cfg 252B
scrapy.cfg 252B
result.csv 403B
数据报告.docx 4.84MB
news_emotion.iml 471B
stock_bulletin.iml 459B
stock_apple.iml 459B
stockappl.iml 459B
PR.json 100B
error_tag.json 47B
README.md 4KB
README.md 501B
README.md 353B
README.md 299B
wordfreq_logistic.ml 139KB
resultX.npz 8.54MB
resultY.npz 1KB
A Study of Synthetic Oversampling for Twitter Imbalanced Sentiment Analysis.pdf 2.96MB
negword.plk 204KB
posword.plk 114KB
stopword.plk 23KB
logfile.plk 678B
ml_rate.plk 355B
3plus3arr.plk 219B
testresult.png 65KB
zh_wiki.py 140KB
emotion_word.py 105KB
Fama.py 16KB
demo.py 10KB
operate_data.py 9KB
langconv.py 8KB
getStockData.py 5KB
clean_html.py 4KB
run_best.py 4KB
collect_dict.py 4KB
generate_sample.py 4KB
sina.py 3KB
settings.py 3KB
settings.py 3KB
settings.py 3KB
settings.py 3KB
settings.py 3KB
loocv_model.py 3KB
getStockFinance.py 3KB
getCapitalStock.py 3KB
getSZ50Data.py 2KB
ml_model.py 2KB
middlewares.py 2KB
middlewares.py 2KB
middlewares.py 2KB
middlewares.py 2KB
middlewares.py 2KB
supplier_news.py 2KB
sina.py 2KB
netease.py 2KB
sina.py 2KB
pipelines.py 1KB
netease.py 1KB
pipelines.py 1KB
pipelines.py 1KB
run.py 957B
more_process.py 700B
getcode.py 520B
news.py 461B
items.py 395B
GetData.py 388B
items.py 379B
items.py 378B
twotag.py 369B
pipelines.py 284B
pipelines.py 284B
items.py 283B
items.py 283B
getcode.py 213B
__init__.py 185B
__init__.py 161B
__init__.py 161B
__init__.py 161B
__init__.py 161B
__init__.py 161B
__init__.py 90B
__init__.py 0B
__init__.py 0B
__init__.py 0B
__init__.py 0B
__init__.py 0B
zh_wiki.cpython-36.pyc 197KB
emotion_word.cpython-36.pyc 148KB
operate_data.cpython-36.pyc 8KB
langconv.cpython-36.pyc 8KB
clean_html.cpython-36.pyc 4KB
sina.cpython-36.pyc 3KB
ml_model.cpython-36.pyc 2KB
netease.cpython-36.pyc 2KB
sina.cpython-36.pyc 2KB
supplier_news.cpython-36.pyc 2KB
sina.cpython-36.pyc 2KB
共 175 条
- 1
- 2
资源评论
汀、人工智能
- 粉丝: 7w+
- 资源: 367
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于STM8S103F3P6+STM8S207C8T6+STM32F103 单片机三合一最小系统开发板硬件(原理图+PCB)工程
- 基于C语言实现的打印杨辉三角
- 基于ASIO的插件式服务器,支持TCP,UDP,串口,Http,Websocket统一化的数据接口,隔离开发人员和IO之间的操作
- stm32 usb接口通信
- Chessmate是一款完全免费的国际象棋学习软件,支持引擎分析,学开局、残局、棋书解读、大数据分析等功能
- 总结整理的Android面试Java基础知识点面试资料精编汇总文档资料合集.zip
- .android_lq
- FDN5632N-VB一款SOT23封装N-Channel场效应MOS管
- 毛老板-2404250902.amr
- Java类加载流程(双亲委派)流程图.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功