温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

python爬虫乱码是文字方块的解决方法

发布时间:2020-11-20 09:19:20 来源:亿速云 阅读:408 作者:小新 栏目:编程语言

这篇文章主要介绍了python爬虫乱码是文字方块的解决方法,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获。下面让小编带着大家一起了解一下。

在跟一群小伙伴探讨完乱码的问题后,小编发现了各式各样的获取方法,当然乱码的问题也是蜂拥而来,都让小编觉得出错比找数据不要太容易了。小编近期一直在收集大家的问题,不断地更新整理后分享给大家,希望更多的小伙伴看到后都知道该如何去解决,今天就python爬虫乱码是文字方块的解决办法。

解析网页时,时常可以看到如下情景:

python爬虫乱码是文字方块的解决方法

这种情况下,我们需要的仅仅是数字,则需要找到相应的字体对应规则。

首先,转码,将字符串转为bytes类型:

python爬虫乱码是文字方块的解决方法

然后,根据0~9各个字符的bytes类型编码,建立对应词典,示例中这个网站的网页载入有点贱嘻嘻,弄了三套对应的转换模式,现在也不知道是否每天还会更新,反正人肉分别将30个bytes类型编码与字符串做对应,用数组或者字典皆可。

 

python爬虫乱码是文字方块的解决方法

最后就可以根据内容来进行转码了。

上面说到这是有限的解决方案,原因在于,如果网站实行动态加密,那可能就要去看具体的js内容了,再就是有的可能是图片,可能需要OCR来进行辅助。

在爬相应的网站的时候,友好起见,我使用了selenium+chromedriver,载入后,再刷新一次,效果更好,说的好像刷新一次以后,就不是机器人了一样哈哈。

感谢你能够认真阅读完这篇文章,希望小编分享python爬虫乱码是文字方块的解决方法内容对大家有帮助,同时也希望大家多多支持亿速云,关注亿速云行业资讯频道,遇到问题就找亿速云,详细的解决方法等着你来学习!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI