![](https://csdnimg.cn/release/download_crawler_static/88184964/bg1.jpg)
Python ⽹络数据获取与⽂本处理示例
获取⽂本数据
⽂本分词
分词转为⽂本
查找搭配词
清洗原始⽂本
解析⽹⻚内容
⽂本处理
⽂本检索
解析 RSS 订阅
读取⽂本⽂件
读取 PDF ⽂件
正则表达式
Python ⽹络数据获取与⽂本处理示例
本示例展示了如何使⽤Python进⾏⽹络数据获取和⽂本处理,包括:
获取⽂本数据
我们⾸先演示了如何使⽤ Python 获取⽹络上的⽂本数据。
!
⽂本分词
接下来,我们展示了如何使⽤ Natural Language Toolkit (NLTK) 库对⽂本进⾏分词。
分词转为⽂本
将分词后的结果转换回⽂本形式。
查找搭配词
from urllib.request import urlopen
url = 'http://www.gutenberg.org/files/2554/2554-0.txt'
raw = str(urlopen(url).read())
import nltk
# 分词
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)