# 先给结论
同花顺财经博文的标题、内容的高频词,对市场未来的影响很小。但市场的表现对高频词的出现影响较大。
## 标题出现的高频词
'当天出现的文章','市场', '公司', '投资', '中国', '三板', '股市', '2017', '什么', '机会', '如何', '大盘', '涨停', '行情', '反弹',
'大盘', '涨停', '如何', '行情', '投资', '板块', '板块', '金融', '上市', '分析', '企业', '概念', '12', '资金', '关注', '个股', '银行', 'IPO', '创业板', '2018',
'交易', '龙头', '基金', '今日', '科技', '这些', '操作', '调整', '复盘', '股民', '11', '热点', '数据', '业绩', '主力','概念股','利好','风险','策略',
'有望','震荡','技术','未来','爆发','新高','持续','上涨','跌停','趋势','增长','注意','重磅','抄底','买入'
## 同花顺博客标题高频词与市场表现相关性较大的组合:
高频词 | 市场表现 | 相关性
---|---|---
跌停 | 后五日涨跌幅 | 0.337732551239
| 调整 | 后十日涨跌幅| 0.334703913145
| 跌停 | 后十日涨跌幅 | 0.380801917212
|反弹 | 前五日涨跌幅| 0.406853849777
|抄底 | 前五日涨跌幅| 0.545436771865
| 股市 | 前十日涨跌幅| 0.393560951093
|反弹 | 前十日涨跌幅| 0.5277485066
| 今日 | 前十日涨跌幅| 0.317949223494
| 有望 | 前十日涨跌幅| 0.315983790449
| 新高 | 前十日涨跌幅| -0.333297974054
|抄底 | 前十日涨跌幅| 0.562049669138
| 中国 | 成交量 | -0.322205577953
| 三板 | 成交量 | -0.306095781623
|反弹 | 成交量 | -0.323135917321
|12 | 成交量 | -0.351612854455
|新高 | 成交量 | 0.31792678197
|调整 | 当日涨跌幅| -0.325439337129
|风险 | 当日涨跌幅 | -0.342464002392
| 抄底 | 当日涨跌幅| -0.346732121157
通过这个我们可以发现,标题的高频词的出现频率对于未来市场的预测作用是比较小的,相关性大于0.3的只有:
高频词 | 市场表现 | 相关性
---|---|---
|跌停 | 后五日涨跌幅 | 0.337732551239
| 调整 | 后十日涨跌幅| 0.334703913145
| 跌停 | 后十日涨跌幅 | 0.380801917212
并且我们可以明显看出,跌停、调整是负面描述,按常理而言,这些词的出现频率与市场之后的收益应该是呈负相关关系的。但统计出来的结果却显示呈正相关。
除了上面三点之外,其他相关性比较显著的点,基本与预测市场之后的走势无关。
另一方面,市场的表现又对博客的言论有影响。比如以下几个相关性:
高频词 | 市场表现 | 相关性
---|---|---
|抄底 | 前五日涨跌幅| 0.545436771865
|抄底 | 前十日涨跌幅| 0.562049669138
|反弹 | 前十日涨跌幅| 0.5277485066
|新高 | 前十日涨跌幅| -0.333297974054
我们可以看到,市场之前的表现对于以上的高频词的出现是有较大影响的。
## 文章内容出现的高频词
'当天出现的文章','公司','市场', '投资', '中国', '企业', '我们', '资金', '可以','亿元', '行业', '没有', '交易', '金融','银行', '股份', '发展','股票', '这个', '增长',
'板块','产品', '可能','指数', '数据', '出现', '技术', '上市', '目前','业务', '如果','个股''今天','科技', '经济', '风险', '还是', '价格', '上涨', '投资者',
'时间', '基金', '主要', '资产','股价', '开始','创业','问题','方面','因为', '服务','自己','但是', '业绩','股东','不是','机构', '现在', '管理', '产业', '通过', '利润',
'对于', '证券', '继续', '未来', '平台', '进行', '分析', '第一', '需要', '情况', '万元', '反弹', '行情', '成为', '12', '下跌', '美元', '持续', '调整', '集团', '影响',
'股市', '消费', '收入','创业板','美国','趋势'
## 同花顺博客文章内容的高频词与市场表现相关性较大的组合:
高频词 | 市场表现 | 相关性
---|---|---
| 风险 | 前五日涨跌幅 | 0.330077659143
| 反弹 | 前五日涨跌幅 | 0.427920083785
| 下跌 | 前五日涨跌幅 | 0.520259568716
| 股市 | 前五日涨跌幅 | 0.372283581669
| 市场 | 前十日涨跌幅 | 0.356406130997
| 资金 | 前十日涨跌幅 | 0.309020993707
| 没有 | 前十日涨跌幅 | 0.301510519779
| 可能 | 前十日涨跌幅 | 0.300200109189
| 出现 | 前十日涨跌幅 | 0.323123797144
| 经济 | 前十日涨跌幅 | 0.308165294781
| 风险 | 前十日涨跌幅 | 0.401951012554
| 情况 | 前十日涨跌幅 | 0.300320199256
| 反弹 | 前十日涨跌幅 | 0.629863669965
| 下跌 | 前十日涨跌幅 | 0.553056409807
| 影响 | 前十日涨跌幅 | 0.328739553186
| 股市 | 前十日涨跌幅 | 0.487528285268
| 美国 | 前十日涨跌幅 | 0.362704847027
| 公司 | 当天成交量 | -0.30381260745
| 市场 | 当天成交量 | -0.346437498414
| 中国 | 当天成交量 | -0.311846188829
| 发展 | 当天成交量 | -0.320022902638
| 上市 | 当天成交量 | -0.30173267499
| 投资者 | 当天成交量 | -0.319937752241
| 时间 | 当天成交量 | -0.316537967934
| 服务 | 当天成交量 | -0.303305283818
| 产业 | 当天成交量 | -0.303958663355
| 通过 | 当天成交量 | -0.340411422841
| 平台 | 当天成交量 | -0.304600663608
| 进行 | 当天成交量 | -0.318032549284
| 反弹 | 当天成交量 | -0.357385512607
| 成为 | 当天成交量 | -0.321410576116
| 下跌 | 当天价格变动幅度 | -0.451803677576
| 调整 | 当天价格变动幅度 | -0.349739979016
通过上述表格,我们可以发现博客文章内容的高频词的预测作用比较小,即高频词与市场接下来的表现(如后五、十日涨跌幅)的相关性均小于0.3
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
使用爬虫获取财经网站的评论、文章;通过tushare库获取股票价格数据;通过jieba库对文本进行词频分析.zip (1151个子文件)
Abidjan 141B
Accra 1KB
Acre 189B
ACT 185B
activate 2KB
Adak 8KB
Addis_Ababa 184B
Adelaide 8KB
Aden 166B
Alaska 184B
Aleutian 171B
Algiers 1KB
Almaty 2KB
Amman 7KB
Amsterdam 9KB
Anadyr 2KB
Anchorage 8KB
Andorra 7KB
Anguilla 203B
Antananarivo 185B
Antigua 202B
Apia 5KB
Aqtau 2KB
Aqtobe 2KB
Araguaina 2KB
Arizona 179B
Aruba 182B
Ashgabat 883B
Ashkhabad 177B
Asmara 179B
Asmera 179B
AST4 196B
AST4ADT 187B
Astrakhan 2KB
Asuncion 8KB
Athens 8KB
Atikokan 332B
Atka 172B
Atlantic 184B
Auckland 8KB
Azores 10KB
Baghdad 2KB
Bahia 2KB
Bahia_Banderas 6KB
Bahrain 166B
BajaNorte 185B
BajaSur 186B
Baku 2KB
Bamako 179B
Bangkok 174B
Bangui 173B
Banjul 179B
Barbados 413B
Barnaul 2KB
activate.bat 726B
deactivate.bat 490B
Beirut 8KB
Belem 1010B
Belfast 177B
Belgrade 7KB
Belize 2KB
Berlin 8KB
Bermuda 8KB
Beulah 8KB
Bishkek 2KB
Bissau 169B
Blanc-Sablon 331B
Blantyre 178B
Boa_Vista 1KB
Bogota 238B
Boise 8KB
Bougainville 270B
Bratislava 180B
Brazzaville 178B
Brisbane 651B
Broken_Hill 8KB
browse 2KB
Brunei 173B
Brussels 9KB
Bucharest 8KB
Budapest 8KB
Buenos_Aires 2KB
Buenos_Aires 234B
Bujumbura 179B
Busingen 178B
Cairo 4KB
Calcutta 173B
Cambridge_Bay 7KB
Campo_Grande 8KB
Canary 6KB
Canberra 190B
Cancun 1KB
Cape_Verde 238B
Caracas 270B
Casablanca 6KB
Casey 263B
Catamarca 2KB
Catamarca 222B
Cayenne 178B
Cayman 180B
共 1151 条
- 1
- 2
- 3
- 4
- 5
- 6
- 12
资源评论
JJJ69
- 粉丝: 6215
- 资源: 5783
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- desc
- VB+ACCESS超市管理系统设计(源代码+系统).zip
- xiulian.jpg
- 130平米全包装修清单明细excel表格.xls
- TI杯大奖赛本科组+研究生组论文+源代码+PCB基于LM3S811的声控轮式机器人
- TI杯大奖赛本科组+研究生组论文+源代码+PCB基于GSM无线传输技术的远程手机遥控系统
- TI杯大奖赛本科组+研究生组论文+源代码+PCB基于FastICA盲源分离算法的语音增强系统
- 15第十五章常用医学统计软件简介.pdf
- TI杯大奖赛本科组+研究生组论文+源代码+PCB基于DSP和双向Z源逆变器的纯电动汽车电机驱动与车辆控制系统
- TI杯大奖赛本科组+研究生组论文+源代码+PCB基于DSP的机械手控制系统
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功