python零基础教程免费_python零基础教程免费_python零基础教程免费_python零基础教程免费_python零基础教程免费

时间时间间:04-08 转自:

老王python

, 标签:

python

这段时间时间间在用python再处理网页抓取这块,互联网许多网页的编码格式都不能好比,大体上是GBK,GB2312,UTF-8,等待。让我们在获取

网页的的综合数据后,先要对网页的编码采取判断,才可更多把抓取的内容中的编码统一转换为让我们并能再处理的编码。一些beautiful soup内部的编码一些unicode的编码。

顺便简要介绍 两种python 判断网页编码的两个方法:


#encoding=utf-8
#python 判断网页编码
import urllib
f = urllib.urlopen('http://xxx.com').info()

print f.getparam('charset')

import chardet #你才可更多部分部分安装下chardet第3方判断编码的模块

data = urllib.urlopen('http://xxx.com').read()

print chardet.detect(data)

★网站部分内容来源网络,如不经意侵犯了您的权益请发送邮件联系我们在36小时内删除★。
本文链接:http://www.quxuepython.com/article/8509.html
上一篇:
上一篇: