判断网页编码的方法python版_怎么查网页编码资源-CSDN文库

23 浏览量 2020-12-23 13:27:51 上传评论收藏 37KB PDF 举报

资源详情

资源评论

资源推荐

判断网页编码的方法判断网页编码的方法python版版

在web开发的时候我们经常会遇到网页抓取和分析，各种语言都可以完成这个功能。我喜欢用python实现，因为python提供了

很多成熟的模块，可以很方便的实现网页抓取。

但是在抓取过程中会遇到编码的问题，那今天我们来看一下如何判断网页的编码：

网上很多网页的编码格式都不一样，大体上是GBK,GB2312，UTF-8等。

我们在获取网页的的数据后，先要对网页的编码进行判断，才能把抓取的内容的编码统一转换为我们能够处理的编码，避免乱

码问题的出现。

下面介绍两种判断网页编码的方法：

总结：总结：第二个方法很准确，在网页编码分析的时候用python模块分析内容是最准确的，而使用分析meta头信息的方法是不太

准确的。

方法一：方法一：使用使用urllib模块的模块的getparam方法方法

import urllib

#autor：pythontab.com

fopen1 = urllib.urlopen('http://www.baidu.com').info()

print fopen1.getparam('charset')# baidu

方法二：方法二：使用使用chardet模块模块

#如果你的python没有安装chardet模块，你需要首先安装一下chardet判断编码的模块哦

#author:pythontab.com

import chardet

import urllib

#先获取网页内容

data1 = urllib.urlopen('http://www.baidu.com').read()

#用chardet进行内容分析

chardit1 = chardet.detect(data1)

print chardit1['encoding'] # baidu

您可能感兴趣的文章您可能感兴趣的文章:python 获取网页编码方式实现代码

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余0页未读，立即下载

评论0

内容反馈

weixin_38648396

粉丝: 2
资源: 953

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip