python爬取微博关键词搜索博文,修改cookie和地址就可以_python爬取微博话题博文链接资源-CSDN文库

共1个文件

py：1个

需积分: 5 37 浏览量 2023-12-05 09:51:53 上传评论收藏 2KB RAR 举报

在Python编程领域，网络爬虫是一项重要的技能，用于自动化地抓取互联网上的数据。本教程将专注于使用Python来爬取微博平台上的特定关键词搜索结果。微博是中国非常流行的社会媒体平台，用户在这里分享观点、交流信息。为了从微博上获取特定关键词的博文，我们需要了解一些关键的Python库和技巧。你需要熟悉`requests`库，它是Python中用于发送HTTP请求的常用库。通过`requests.get()`函数，我们可以向微博的搜索接口发送GET请求，获取数据。在请求中，我们需要设置参数如关键词、排序方式等，并且可能需要提供`cookie`，这是网站用来识别用户的标识符，通常包含登录信息。在Python中，你可以通过`headers`参数添加自定义的HTTP头，包括`cookie`信息。 `BeautifulSoup`库是解析HTML和XML文档的利器。它允许我们方便地查找、遍历和提取网页中的数据。当收到微博返回的HTML响应后，我们需要解析这个响应以找到我们感兴趣的博文内容，如博主名称、发布时间、正文等。可以使用BeautifulSoup的`find()`或`find_all()`方法来定位特定的HTML标签。微博的反爬策略比较严格，可能需要定期更换`cookie`或使用代理IP来避免被封禁。在Python中，你可以用`random`库来生成随机的间隔时间，防止过于频繁的请求。如果需要使用代理，可以借助`proxy_pool`之类的项目来获取可用的代理列表。此外，考虑到微博的API可能需要登录验证，你可能需要用到`session`对象来保持会话状态。`requests.Session()`可以保存一些请求的上下文信息，如cookies，这样在后续的请求中可以继续使用。在实际操作中，需要注意遵守微博的爬虫政策，尊重网站的robots.txt文件，以及避免对网站造成过大压力。在处理数据时，你可能还需要用到`pandas`库来清洗、整理和分析抓取到的博文信息，以便进一步的分析和挖掘。在压缩包内的文件中，你可能会看到一个Python脚本，它可能包含了上述提到的一些步骤，如设置请求参数、发送请求、解析响应、处理数据等。你可以通过阅读和理解这个脚本来学习如何实现微博爬虫。如果你遇到问题，可以参考Python和相关库的官方文档，或者查阅在线的教程和论坛来获取帮助。 Python爬取微博关键词搜索博文涉及到的知识点包括：使用`requests`库进行HTTP请求、管理`cookie`，使用`BeautifulSoup`解析HTML，处理反爬策略，以及可能的数据分析工具如`pandas`。通过实践这些技术，你不仅可以获取微博上的信息，还可以掌握网络爬虫的基本技能，为更复杂的数据抓取任务打下基础。

资源推荐

资源详情

资源评论

收起资源包目录

python爬取微博关键词搜索博文,修改cookie和地址就可以.rar （1个子文件）

python爬取微博关键词搜索博文,修改cookie和地址就可以

requests_weibo.py 4KB

"""__author__:Orange """ import time from collections import Counter import jieba from lxml import etree import requests # 爬虫获取 def get_Research(research_Words, page): headers = { 'Host': 's.weibo.com', 'Cookie': 'SINAGLOBAL=9144757084286.572.1603873591535; _s_tentry=login.sina.com.cn; ' 'Apache=2106463437790.802.1615947115553; ' 'ULV=1615947115561:77:3:3:2106463437790.802.1615947115553:1615863469171; ' 'login_sid_t=1ad4e167c46fa331cac8e9d1bad5b73e; cross_origin_proto=SSL; UOR=,,login.sina.com.cn; ' 'appkey=; ALF=1647483366; SSOLoginState=1615947366; ' 'SCF=ApYThqk4916OrNn9zNxwX9sLzFvlD13IgPQNWd-9V1VJ2LDeOG0Z8et2m6UvPvLRuNDb-9-ChEpWDzuwkGgDDv0.; ' 'SUB=_2A25NVRY5DeRhGeFL7FUZ8y_Iyj2IHXVuIwDxrDV8PUNbmtANLU79kW9NfboBvxBSoJBysiqz60EsbjMTrp8pshSP; ' 'SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9W51slVN9dElVUdLTaSqNo_j5JpX5KzhUgL' '.FoMfS0MRe02XeK22dJLoIp7LxKML1KBLBKnLxKqL1hnLBoMf1KBNeoBfS024; wvr=6; ' 'webim_unReadCount=%7B%22time%22%3A1615947417491%2C%22dm_pub_total%22%3A0%2C%22chat_group_client%22' '%3A0%2C%22chat_group_notice%22%3A0%2C%22allcountNum%22%3A1%2C%22msgbox%22%3A0%7D; ' 'WBStorage=8daec78e6a891122|undefined', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/86.0.4240.111 Safari/537.36 ' } url = f'https://s.weibo.com/weibo?q={research_Words}&wvr=6&b=1&Refer=SWeibo_box&page={page}' # print(url) # print(urlencode(params)) # 异常捕获错误 try: response = requests.get(url, headers=headers) time.sleep(0.1) response.encoding = 'utf-8' if response.status_code == 200: weibo_data = '' html_result = response.text data = etree.HTML(html_result) data = data.xpath('//*[@node-type="feed_list_content"]/text()') # xpath定位元素获取text内容 for i in data: # 处理list中存在的回车空格 i.replace(' ', '') i.replace('\n', '').replace('\r', '') weibo_data += i return weibo_data except requests.ConnectionError: print(None) # 创建停用词list def stopwordslist(filepath): stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()] return stopwords # 对句子分词 def seg_sentence(sentence): sentence_seged = jieba.cut(sentence.strip()) path = r'D:\新建文件夹\稻米数据\Python-根据关键词抓取微博数据再生成词云\weibo_wordcloud-master\stopwords.txt' stopwords = stopwordslist(path) # 这里加载停用词的路径 outstr = '' for word in sentence_seged: if word not in stopwords: if word != '\t': outstr += word outstr += " " return outstr def main(word, weibo_page): weibo_data = '' for i in range(1, 51): result = get_Research(word, weibo_page) # 获取所有词 weibo_data += result return weibo_data # 主函数入口 if __name__ == '__main__': name = input('请输入需要爬取的关键词:') page = input('请输入爬取页数:') data = main(name, page) # 保存原始数据文件 with open(f'weibo_{name}.txt', 'w', encoding='utf-8') as f: f.write(data) data = seg_sentence(data) deal_data = dict(Counter(data)) # 保存词频处理后文件 with open(f'weibo_deal_{name}.txt', 'w', encoding='utf-8') as foo: # 保存到文件中 for k, v in deal_data.items(): foo.write('%s,%d\n' % (k, v))

评论收藏

内容反馈