## LGJ 的经管毕业设计 - MD&A文本信息与房地产企业潜在风险预测研究
- 年度报告,爬取自和讯网
- 财务信息,锐思数据库
---
### 1. 文本信息获取
从和讯网爬取房地产企业2016-2021年共6年的 年度财务报告,并提取出其中的MD内容
将所有公司的MDA文本整合到data/mda_text.xlsx文件中
---
### 2. 文本分析
使用gensim进行 自然语言处理,gensim官网 [https://radimrehurek.com/gensim/models/word2vec.html](https://radimrehurek.com/gensim/models/word2vec.html)
#### 已有的金融词向量模型
已训练好的词向量模型:[https://github.com/Embedding/Chinese-Word-Vectors](https://github.com/Embedding/Chinese-Word-Vectors)
选择金融新闻训练出的300d的词向量模型: [https://pan.baidu.com/s/1EhtsbDa3ekzZPODWNLHcXA](https://pan.baidu.com/s/1EhtsbDa3ekzZPODWNLHcXA)
#### 训练词向量模型
由于MDA语料中的一些词语并没有出现在已有的金融词向量模型中,我们希望训练一个完整的MD&A词向量模型,获取它的model.wv属性,该属性包含独立的keyed vectors,执行各种NLP语法/语义的单词任务。本研究使用word2vec训练向量,主要用到语义相似度,根据自己的风险种子词,来提取出其中的风险性词语。
---
### 3. 统计指标
>./dict 中,
>>stopwords_ch.txt 停用词典;
>>CFSD金融情感词典;
>>RISK_WORDS.txt 风险词典(自己训练出词向量模型,取出与种子词的余弦相似度0.8以上的词语)
---
- stata命令
>- 描述性统计
logout, save(D:\统计描述)word replace:tabstat ΔROA tone readability risk,s(N mean p50 sd min max) f(%12.3f) c(s)
>- 相关性分析
logout,save(D:\相关性分析)word replace:pwcorr_a ΔROA tone readability risk
>- 共线性诊断
reg ΔROA tone readability risk,r
vif
logout ,save(D:\共线性诊断)word replace:vif
---
后续工作
1. 使用语调、可读性、风险指标等解释变量的变动对评级变动进行回归
2. 增加被解释变量来衡量潜在风险并进行回归。如使用房地产企业的独特属性(是否暴雷)、股价崩盘风险。
3. 进一步研究在不同类型房企中,研究结论的异质性,通过产权分类(国企或民营)、研究时间、经营现状、MD&A 文本可读性高低等进行分组后再进行研究。
4. 完成的论文稿并优化改进论文内容,理清框架逻辑。
没有合适的资源?快使用搜索试试~ 我知道了~
基于管理层讨论与分析(MD&A)文本信息与房地产企业潜在风险预测的研究项目源代码+模型+数据,经管毕设
共37个文件
txt:8个
xlsx:7个
xls:7个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
5星 · 超过95%的资源 2 下载量 104 浏览量
2024-04-29
20:26:49
上传
评论 1
收藏 99.58MB ZIP 举报
温馨提示
经管毕业设计 - MD&A文本信息与房地产企业潜在风险预测研究 年度报告,爬取自和讯网 财务信息,锐思数据库 1. 文本信息获取 从和讯网爬取房地产企业2016-2021年共6年的 年度财务报告,并提取出其中的MD内容 将所有公司的MDA文本整合到data/mda_text.xlsx文件中 2. 文本分析 使用gensim进行 自然语言处理,gensim官网 https://radimrehurek.com/gensim/models/word2vec.html 已有的金融词向量模型 已训练好的词向量模型:https://github.com/Embedding/Chinese-Word-Vectors 选择金融新闻训练出的300d的词向量模型: https://pan.baidu.com/s/1EhtsbDa3ekzZPODWNLHcXA 训练词向量模型 由于MDA语料中的一些词语并没有出现在已有的金融词向量模型中,我们希望训练一个完整的MD&A词向量模型,获取它的model.wv属性,该属性包含独立的keyed vectors,执行各种NLP语法/语义
资源推荐
资源详情
资源评论
收起资源包目录
mda-text-analysis-master.zip (37个子文件)
mda-text-analysis-master
文本聚类.ipynb 9KB
data
所有变量.xlsx 163KB
mda_index.xlsx 16.71MB
mda_text.csv 27.59MB
财务数据
resset资产负债表.xls 700KB
resset利润表.xls 465KB
resset_all.xlsx 1.03MB
resset财务指标.xls 755KB
resset财务比率.xls 2.59MB
resset现金流量表.xls 648KB
resset421010_93.txt 669B
421010.xls 31KB
债券主体评级
债券主体评级_汇总.xlsx 14KB
债券主体评级_同花顺.xlsx 14KB
债券主体评级_部分.txt 18KB
控制变量.xls 198KB
readme.md 2KB
photos
解压腾讯词向量模型.png 16KB
3-构建文本指标.ipynb 45KB
2-风险词向量模型.ipynb 109KB
4-处理财务指标.ipynb 84KB
model
oval.png 169KB
mda_corpus.vector 64.28MB
gensim.md 2KB
word_cloud.png 71KB
mda_corpus.txt 21.45MB
lda.html 23KB
mda_word2vec.model 44.23MB
.gitignore 488B
5-回归分析.ipynb 44KB
dict
RISK_WORDS.txt 4KB
CFSD.xlsx 149KB
风险种子词.xlsx 18KB
stopwords_ch.txt 13KB
CFSD_pos.txt 28KB
CFSD_neg.txt 51KB
CFSD.txt 80KB
共 37 条
- 1
资源评论
- weixin_462082192024-05-30这个资源值得下载,资源内容详细全面,与描述一致,受益匪浅。
- dartherection2024-10-11总算找到了想要的资源,搞定遇到的大问题,赞赞赞!
程序员柳
- 粉丝: 8390
- 资源: 1469
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- DDSI-RTPSv2.3规范(中文版).pdf
- Polarcraft Techincal Brochure_2021_FINAL2.pdf
- Polarcraft_Installation_and_Operation_Manual_2023.pdf
- Engineering Manual 2013.pdf
- 空气冷却冷凝器.pdf
- 制冷-基础知识介绍.pdf
- 谷轮制冷设计手册ae101.pdf
- 制冷系统工程设计指南ENGINEERING-DESIGN-GUIDELINES-refrigeration-systems-Rev2.1web.pdf
- 谷轮制冷设计手册ae102.pdf
- EM.pdf
- 134a制冷剂处理技术指南.pdf
- 杜邦制冷剂管道手册.pdf
- 多元经验模式分解(memd)算法,是emd算法从单个变量到任意数量变量的扩展 从Excel表格中读取,电流,温度,湿度,油温 然后将个序列输入算法,得到分解结果并画图,每个变量的imf用不同颜色来
- 谷轮制冷设计手册ae104.pdf
- 38TN-1XA.pdf
- R134a制冷技术手册.pdf
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功