没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
《用 Python 玩转数据》项目—新闻标题内容挖掘
一、背景
新闻标题是新闻的主旨,从新闻标题中可以进行多种内容的挖掘,例如可以爬取一定时
间段内的新闻进行分析获得热点词。新浪各地新闻中的新闻标题形式如下:
向飞机撒硬币老太被处拘留 5 日 因年龄不予执行(06 月 28 日 20:18)
亚投行副行长:来中国一年半口袋已“没有”现金(06 月 28 日 20:13)
张德江与澳大利亚众议长举行会谈(06 月 28 日 19:54)
二、算法
以获取一定时间段内新闻标题中的热点词并绘制词云为例,该算法的主要步骤如下:
1. 从新闻网站爬取若干新闻标题并进行解析
1.1 利用 Requests 库的 get()函数爬取网页
1.2 找到其中的新闻标题模式
1.3 利用 re 模块中的 findall()函数提取出标题,将它们存入文件;
2. 标题分词(Text Segmentation)
要抓热点词首先要将新闻标题进行分词,可利用 Python 中著名的分词器 jieba(结
巴分词)
逐行用 jieba 分词,单行分词的代码如下:
word_list = pseg.cut(subject)
3. 去除停用词
很多如“的”和“我们”这样的功能词对于主题分析并无帮助,因此需要使用停用
词表进行词的过滤
代码如下:
stop_words = set(line.strip() for line in open('stopwords.txt', encoding='utf-8'))
4. 选择名词
jieba 中的词性标签使用了传统方式,例如"n"是名词,“a”是形容词,“v”是动词等。
新闻标题中的名词更能代表热点,可以单独选择名词进行后续处理
选择所有的名词放到一个列表中的代码如下:
for word, flag in word_list:
if not word in stop_words and flag == 'n':
newslist.append(word)
5. 根据词频画出词云
将所有的名词直接作为 WordCloud()函数的参数,默认 WordCloud 内部通过统计词
频对词进行排序
代码如下:
content = ' '.join(newslist)
wordcloud = WordCloud(font_path='simhei.ttf', background_color="grey",
资源评论
- 一个冷静的童鞋2020-02-12还可以吧,能不能用靠运气
- dcxhmjlh2019-04-08有些简单,学习不错
图灵的猫.
- 粉丝: 7341
- 资源: 10
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Win64OpenSSL-3-3-0.exe
- 课高分程设计-基于C++实现的民航飞行与地图简易管理系统-南京航空航天大学
- 航天器遥测数据故障检测系统python源码+文档说明+数据库(课程设计)
- 北京航空航天大学操作系统课设+ppt+实验报告
- 基于Vue+Echarts实现风力发电机中传感器的数据展示监控可视化系统+源代码+文档说明(高分课程设计)
- 基于单片机的风力发电机转速控制源码
- 基于C++实现的风力发电气动平衡监测系统+源代码+测量数据(高分课程设计)
- 毕业设计- 基于STM32F103C8T6 单片机,物联网技术的太阳能发电装置+源代码+文档说明+架构图+界面截图
- 基于 LSTM(长短期记忆)(即改进的循环神经网络)预测风力发电厂中风力涡轮机产生的功率+源代码+文档说明
- 基于stm32f103+空心杯电机+oled按键+运动算法
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功