创建一个网络爬虫来抓取新闻
创建一个网络爬虫通常涉及使用编程语言(如 Python)和相关库(如 Requests 和 BeautifulSoup)
来抓取和解析网页数据。以下是一个简单的 Python 爬虫案例,用于抓取网页上的特定信息。
我们将以抓取一个假想新闻网站的新闻标题为例。
### Python 爬虫案例:抓取新闻标题
#### 步骤 1: 安装所需库
确保你的 Python 环境中已安装`requests`和`beautifulsoup4`库。如果尚未安装,可以通过以
下命令安装:
```bash
pip install requests beautifulsoup4
```
#### 步骤 2: 编写爬虫代码
创建一个 Python 文件,例如`news_scraper.py`,并在其中编写以下代码:
```python
import requests
from bs4 import BeautifulSoup
def fetch_news_titles(url):
# 发送 HTTP GET 请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析 HTML 文档
soup = BeautifulSoup(response.text, 'html.parser')
# 假设新闻标题都在<h2>标签内
news_titles = soup.find_all('h2')
# 打印所有找到的新闻标题
for title in news_titles:
print(title.get_text().strip())
else:
print(f"Failed to retrieve the webpage: {response.status_code}")