python爬虫的基本原理与过程

发布时间：2021-09-17 15:23:30 来源：亿速云阅读：223 作者：chen 栏目：大数据

这篇文章主要讲解了“python爬虫的基本原理与过程”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“python爬虫的基本原理与过程”吧！

爬虫是模拟用户在浏览器或者App应用上的操作，把操作的过程、实现自动化的程序。由以下4个基本流程。

（1）、发起请求
通过HTTP库向目标站点发起请求，也就是发送一个Request，请求可以包含额外的header等信息，等待服务器响应

（2）、获取响应内容
如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能是HTML,Json字符串，二进制数据（图片或者视频）等类型

（3）、解析内容
得到的内容可能是HTML,可以用正则表达式，页面解析库进行解析，可能是Json,可以直接转换为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理

（4）、保存数据
保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件

而当我们在浏览器中输入一个url后回车，后台会发生什么？

简单来说这段过程发生了以下四个步骤：

（1）、查找域名对应的IP地址。
浏览器首先访问的是DNS(Domain Name System,域名系统),dns的主要工作就是把域名转换成相应的IP地址

（2）、向IP对应的服务器发送请求。

（3）、服务器响应请求，发回网页内容。

（4）、浏览器显示网页内容。

网络爬虫要做的，简单来说，就是实现浏览器的功能。通过指定url，直接返回给用户所需要的数据，而不需要一步步人工去操纵浏览器获取。

感谢各位的阅读，以上就是“python爬虫的基本原理与过程”的内容了，经过本文的学习后，相信大家对python爬虫的基本原理与过程这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是亿速云，小编将为大家推送更多相关知识点的文章，欢迎关注！

向AI问一下细节

猜你喜欢