新浪新闻.zip资源-CSDN文库

共7个文件

csv：5个

py：2个

版权申诉

196 浏览量 2023-08-22 10:15:06 上传评论收藏 990KB ZIP 举报

标题“新浪新闻.zip”指的是一个包含了与新浪新闻相关的爬虫项目的压缩文件。这个项目使用了Python编程语言，根据描述，其目标是抓取并处理新浪新闻网站上的信息。以下是基于这些信息可能涵盖的知识点和详细解释： 1. **Python基础知识**：Python是一种高级编程语言，因其简洁易读的语法而被广泛用于各种领域，包括网络爬虫。在这个项目中，Python可能被用来编写爬虫脚本和数据处理代码。 2. **网络爬虫**：网络爬虫是一种自动化程序，可以遍历互联网上的网页，抓取所需信息。在新浪新闻的项目中，爬虫可能用于获取新闻标题、内容、发布日期等信息。Python中的库如BeautifulSoup和Scrapy可用于构建这样的爬虫。 3. **BeautifulSoup**：这是一个Python库，用于解析HTML和XML文档。在这里，它可能被用来提取新浪新闻页面的结构化数据。 4. **Scrapy框架**：Scrapy是一个强大的爬虫框架，提供了更高级的功能，如中间件、爬取调度和并发处理。如果项目复杂度较高，可能使用了Scrapy来管理爬取流程。 5. **CSV文件处理**：新闻.csv、新闻-处理之后.csv、新闻-没有URL.csv等文件表明数据被存储为CSV格式，这是一种常见的数据交换格式，易于读写和分析。Python的内置csv模块可能被用于处理这些文件。 6. **数据清洗**：清洗数据.py可能是用于预处理抓取到的数据的脚本。数据清洗是数据分析的重要步骤，包括去除重复项、填充缺失值、格式标准化等。 7. **数据处理**：新闻-处理之后.csv表明原始数据经过了处理，可能进行了文本清洗、关键词提取、分类等操作，以便于后续分析或存储。 8. **关键字处理**：单独民法典关键字.csv和单独民法典关键字-处理之后.csv可能涉及到特定主题（如民法典）的关键词提取和分析，这可能涉及自然语言处理（NLP）技术。 9. **Python NLP库**：NLTK（自然语言工具包）和spaCy等Python库可能用于处理新闻文本，进行词性标注、实体识别、情感分析等任务。 10. **文件组织**：文件名中的“-处理之后”表明每个文件可能存在一个原始版本和一个经过处理的版本，这反映了数据处理的步骤和结果的保存。这个项目可能涵盖了从数据抓取、数据清洗到数据分析的完整流程，对于学习Python爬虫和数据处理的初学者来说是一个很好的实践案例。通过这个项目，可以深入理解如何利用Python在实际场景中处理网络数据。

资源推荐

资源详情

资源评论

收起资源包目录

新浪新闻.zip （7个子文件）

单独民法典关键字-处理之后.csv 352KB

新浪新闻.py 2KB

清洗数据.py 898B

新闻.csv 843KB

单独民法典关键字.csv 357KB

新闻-没有URL.csv 521KB

新闻-处理之后.csv 740KB

import random import pandas as pd import requests from bs4 import BeautifulSoup headers = { "Cookie": 'UOR=,news.sina.com.cn,; ULV=1646571837976:1:1:1::; SEARCH-SINA-COM-CN=; SUB=_2A25PIMOkDeRhGeNG7VAR9CrMyDiIHXVsV7JsrDV_PUNbm9AfLWHikW9NSy8nwqCrFvz37BcEh4j0SAN-xVFfeear; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WFnTj5Cf6OTDYFZWM1QCYXM5JpX5KzhUgL.Fo-RSoz7ShB7e0B2dJLoI7phqPiDdJ8kSKzc1KMt; ALF=1678108532; U_TRS1=000000e9.fe2d7c2e.6224b3f5.99ca807e; U_TRS2=000000e9.fe3e7c2e.6224b3f5.015bfb32; mYSeArcH=%u6C11%u6CD5%u5178; beegosessionID=622a493c1d40ebf245db5700050c01ca', "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36 Edg/99.0.1150.30' } def getItemInfo(url): try: response = requests.get(url, headers=headers).content.decode('utf-8') # print(response) print(len(response)) soup = BeautifulSoup(response, "lxml") title = soup.select('.main-title')[0].string if soup.select('#article > p > font'): contentBox = soup.select('#article > p > font') else: contentBox = soup.select('#article > p') date = soup.select('.date')[0].string author = soup.select('.source.ent-source')[0].string content = '' for i in contentBox: if i.string: print(i.string) content += i.string return [title, date, author, content, url] except: print('获取单个信息报错了~~~~') url = 'https://search.sina.com.cn/news' for item in range(1, 21): data = { 'q': '民法', 'c': 'news', 'range': 'all', 'size': '10', 'page': str(item), } response = requests.post(url, headers=headers, data=data).content.decode('utf-8') soup = BeautifulSoup(response, "lxml") listBox = soup.select('.box-result.clearfix > h2 > a') for i in listBox: try: print(i['href']) itemInfo = getItemInfo(i['href']) except: print('第一轮报错了~~~~~') df = pd.read_csv('新闻.csv', encoding='utf-8') df.loc[len(df)] = itemInfo # 其中loc[]中需要加入的是插入地方dataframe的索引，默认是整数型 df.columns = ['标题', '日期', '作者', '内容', '文章链接'] df.to_csv('新闻.csv', index=False, encoding='utf_8_sig')

评论收藏

内容反馈

版权申诉