当前位置:主页 > python教程 > 详解Python解决抓取内容乱码问题(decode和encode解码)

如何解决Python抓取内容乱码问题

发布:2020-02-04 09:11:44 92


给大家整理一篇Python相关的编程文章,网友祖婉娜根据主题投稿了本篇教程内容,涉及到Python、内容乱码、decode、encode、详解Python解决抓取内容乱码问题(decode和encode解码)相关内容,已被531网友关注,下面的电子资料对本篇知识点有更加详尽的解释。

详解Python解决抓取内容乱码问题(decode和encode解码)

一、乱码问题描述

经常在爬虫或者一些操作的时候,经常会出现中文乱码等问题,如下

详解Python解决抓取内容乱码问题(decode和encode解码)

原因是源网页编码和爬取下来后的编码格式不一致

 二、利用encode与decode解决乱码问题

字符串在Python内部的表示是unicode编码,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。

decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode(‘gb2312'),表示将gb2312编码的字符串str1转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode(‘utf-8'),表示将unicode编码的字符串str2转换成utf-8编码。

decode中写的就是想抓取的网页的编码,encode即自己想设置的编码

代码如下

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()
RES = RES.decode('gb2312').encode('utf-8')//解决乱码
wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

或者

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()
RES=RES.decode('gb2312')
RES=RES.encode('utf-8')
wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

但是还要注意:
如果一个字符串已经是unicode了,再进行解码则将出错,因此通常要对其编码方式是否为unicode进行判断

isinstance(s, unicode)#用来判断是否为unicode

用非unicode编码形式的str来encode会报错

所以最终可靠代码:

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()

if isinstance(RES, unicode):
 RES=RES.encode('utf-8')
else:
 RES=RES.decode('gb2312').encode('utf-8')

wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

详解Python解决抓取内容乱码问题(decode和encode解码)

三、如何找到需要抓取的目标网页的编码格式

1、查看网页源代码

详解Python解决抓取内容乱码问题(decode和encode解码)

如果源代码中没有charset编码格式显示可以用下面的方法

2、检查元素,查看Response Headers

详解Python解决抓取内容乱码问题(decode和encode解码)

以上所述是小编给大家介绍的Python解决抓取内容乱码问题(decode和encode解码)详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对码农之家网站的支持!


参考资料

相关文章

  • python直接访问私有属性的简单教程

    发布:2022-06-21

    为网友们分享了关于python的教程,下面小编就为大家带来一篇python直接访问私有属性的简单方法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧


  • python类属性学习深入讲解

    发布:2022-04-13

    这篇文章主要介绍了python类属性学习深入讲解,文中对于python的类属性的理解有正在学习python的同学可以一块学习下


  • Python编程实现输入某年某月某日计算出这一天是该年第几天的方法

    发布:2022-04-16

    这篇文章主要介绍了Python编程实现输入某年某月某日计算出这一天是该年第几天的方法,涉及Python针对日期时间的转换与运算相关操作技巧,需要的朋友可以参考下


  • Python用adb shell命令启动应用的方法总结

    发布:2019-06-05

    今天小编就为大家分享一篇Python之使用adb shell命令启动应用的方法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧


  • 详解Python网络框架Django和Scrapy安装指南

    发布:2022-04-11

    这篇文章主要介绍了详解Python网络框架Django和Scrapy安装指南,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧


  • Python中表达式x += y和x = x+y 的区别详解

    发布:2022-10-08

    给网友朋友们带来一篇关于Python的教程,这篇文章主要跟大家介绍了关于Python中x += y和x = x+y 的区别的相关资料,文中通过示例代码介绍的非常详细,对大家具有一定的参考学习价值,需要的朋友们下面来一起看看吧。


  • Python pandas模块输出每行中间省略号问题及解决方法

    发布:2019-08-11

    这篇文章主要介绍Python pandas模块输出每行中间省略号问题,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下


  • python list与numpy数组效率对比

    发布:2023-04-24

    这篇文章主要介绍了python list与numpy数组效率对比分析,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教


网友讨论