爬取微博数据_爬取微博_python爬虫_爬取微博数据并可视化_数据开发_微博分析_

共2个文件

html：1个

py：1个

爬取微博

python爬虫

数据开发

5星 · 超过95%的资源 30 浏览量 2021-10-02 16:25:39 上传评论 20 收藏 4KB ZIP 举报

在本文中，我们将深入探讨如何使用Python爬虫技术来爬取微博数据，分析情感倾向，以及将结果以可视化的方式展示。让我们了解为何要进行微博数据爬取以及它的价值。微博作为中国的一个社交媒体平台，拥有海量用户和信息，包含了各种实时的公众观点和热点事件。对这些数据进行爬取和分析，可以洞察公众情绪、社会趋势，甚至用于商业决策或学术研究。接下来，我们将详细介绍整个流程，包括数据爬取、情感分析和数据可视化。 1. **数据爬取** 使用Python爬虫是获取微博数据的主要手段。Python提供了许多库，如`requests`用于发送HTTP请求，`BeautifulSoup`或`lxml`用于解析HTML文档，`re`正则表达式库用于匹配和提取数据。在`爬取微博数据.py`文件中，可能包含了以下步骤： - 设置微博登录的cookie和请求头，模拟用户登录。 - 然后，通过循环或递归的方式，遍历微博的URL，发送GET请求获取HTML页面。 - 接着，解析HTML，提取所需数据，如微博文本、作者、发布时间、点赞数、评论数等。 - 将数据存储到合适的格式，如CSV或JSON文件，便于后续处理。 2. **情感分析** 爬取的数据中，微博文本是最有价值的部分，可以用于情感分析。情感分析旨在识别和提取文本中的主观信息，判断其情感倾向（正面、负面或中性）。Python的`nltk`和`TextBlob`库提供了基础的情感分析功能。更高级的分析可能需要训练自定义的模型，如使用`TensorFlow`或`PyTorch`框架，基于深度学习方法（如LSTM或BERT）进行文本分类。 3. **数据可视化** 文件"人数分级设色地图1.html"表明了数据可视化的一部分，可能是用地图展示了不同地区的微博用户数量。Python的`geopandas`库可以结合地理信息，`matplotlib`和`seaborn`用于基本图表，而`plotly`或`bokeh`则适合交互式可视化。情感分析的结果可能被用来创建条形图、折线图或者词云，以直观地展示正面、负面和中性微博的比例分布。 4. **注意事项** 在进行数据爬取时，必须遵守微博的使用协议和爬虫伦理，尊重用户隐私，避免频繁请求导致IP被封禁。同时，处理敏感信息时要进行匿名化处理，确保数据安全。总结，这个项目展示了从数据爬取到分析再到可视化的全过程，利用Python的强大工具，我们可以从微博这个信息宝库中挖掘有价值的数据，并以直观的形式呈现出来，为决策提供支持。在实际操作中，还需要不断优化爬虫策略，提升数据分析的准确性和效率。

资源详情

资源评论

资源推荐

收起资源包目录

爬取微博数据.zip （2个子文件）

爬取微博数据.py 5KB

人数分级设色地图1.html 8KB

from weibopy import WeiboOauth2, WeiboClient import re import webbrowser from collections import defaultdict import time import snownlp from pyecharts.charts import Map from pyecharts import options as opts from pyecharts.globals import ThemeType # 获取 token client_key = '3038336820' # app key client_secret = '3eb719b2f157ec56509ea00a422abc35' # app secret redirect_url = 'https://api.weibo.com/oauth2/default.html' auth = WeiboOauth2(client_key, client_secret, redirect_url) webbrowser.open_new(auth.authorize_url) # 获取认证 code code = input('输入 code:') # 免密操作 token = auth.auth_access(code) # 使用 code 获取 token print(token) # 获取微博评论 client = WeiboClient(token['access_token']) # token 是刚刚获得的 token，可以一直使用 # suffix 指定 API 的名称，parmas 是参数，在文档中有详细描述 result = client.get(suffix='comments/show.json', params={'id': 4318237070487349, 'count': 200, 'page': 1}) # 微博 id 很容易获得，只要打开一条微博，查看页面的 URL，比如 https://m.weibo.cn/detail/4321877356979717，后面的那串数字就是这条微博的 id。 # 如果没有发生意外，上面的代码将获取到 id 为 4318237070487349 的微博的前 200 条评论内容，并且已经存储为字典形式。 print(result) # 评论包含一些对情感分析无用的干扰内容, 利用正则表达式去除上述的干扰内容 # 替换为空字符串 # text = re.sub('回复.*?:', '', str(comment['text'])) province_list = defaultdict(list) # 保存按省划分的评论正文 comment_text_list = [] # 保存所有评论正文 # 获取「自杀式单身」评论列表 # 共获取 10 页 * 每页最多 200 条评论 for i in range(1, 11): result = client.get(suffix='comments/show.json', params={'id': 4322140368509204, 'count': 200, 'page': i}) comments = result['comments'] if not len(comments): break # #coments为空则退出 for comment in comments: text = re.sub('回复.*?:', '', str(comment['text'])) province = comment['user']['province'] province_list[province].append(text) comment_text_list.append(text) print('已抓取评论 {} 条'.format(len(comment_text_list))) time.sleep(1) # 获取省份列表 provinces = {} results = client.get(suffix='common/get_province.json', params={'country': '001'}) for prov in results: for code, name in prov.items(): provinces[code] = name print(provinces) # 评论情感分析 positives = {} for province_code, comments in province_list.items(): sentiment_list = [] for text in comments: s = snownlp.SnowNLP(text) # 情感分析 sentiment_list.append(s.sentiments) # 统计平均情感 positive_number = sum(sentiment_list) positive = positive_number / len(sentiment_list) * 100 # 按省保存数据, 0010 为国家前缀 province_code = '0010' + str(province_code) if province_code in provinces: provice_name = provinces[province_code] positives[provice_name] = int(positive) # 绘制情感分布图 keys = list(positives.keys()) values = list(positives.values()) lst = values[0:34] data = [list(i) for i in zip(keys, lst)] map = ( Map(init_opts=opts.InitOpts(bg_color="#FFFAFA", theme=ThemeType.ESSOS, width="1000px", height="600px")) .add("情感指数", data) .set_global_opts( title_opts=opts.TitleOpts(title="自杀式单身情感分析地域图"), visualmap_opts=opts.VisualMapOpts( is_piecewise=True, # 设置是否为分段显示 # 自定义的每一段的范围，以及每一段的文字，以及每一段的特别的样式。例如： pieces=[ {"min": 67, "label": '70%', "color": "#eb2f06"}, {"min": 60, "max": 67, "label": '60%', "color": "#FF3030"}, # 不指定 max，表示 max 为无限大（Infinity）。 {"min": 53, "max": 60, "label": '50%', "color": "#FF4500"}, {"min": 46, "max": 53, "label": '40%', "color": "#FF7F50"}, {"min": 39, "max": 46, "label": '30%', "color": "#FFA500"}, {"min": 31, "max": 39, "label": '20%', "color": "#FFDEAD"}, ], # 两端的文本，如['High', 'Low']。 range_text=['高', '低'], ), ) ) map.render(path="单身热评分布.html") ''' #map.add("积极情感", keys, values, visual_range=[0, 100], maptype='china', is_visualmap=True, is_label_show=True, # visual_text_color='#000') # maptype='china' 只显示全国直辖市和省级 # 数据只能是省名和直辖市的名称 from collection import Counter # 获取评论中出现的表情 emoji_list = [] for comment in comment_text_list: emojis = re.findall(re.compile(u'(\[.*?\])', re.S), comment) if emojis: for emoji in emojis: emoji_list.append(emoji) emoji_dict = Counter(emoji_list) print(emoji_dict) '''