温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

爬虫代理IP的类型和原理是什么

发布时间:2021-09-07 16:27:41 来源:亿速云 阅读:108 作者:chen 栏目:编程语言

本篇内容介绍了“爬虫代理IP的类型和原理是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

1、代理类型:透明代理IP、匿名代理IP、高匿名代理

代理IP可以分为四种类型。除透明代理IP、匿名代理IP、高匿名代理IP外,还有一类是混淆代理IP。就基本安全性而言,它们的排列顺序是高匿>混淆>匿名>透明。

2、代理原理:REMOTE_ADDR、X-Forwarded-For(XFF)、HTTP_VIA。

代理类型主要依赖于代理服务器端的配置,不同的配置形成不同的代理类型。在配置中,这三个变量REMOTE_ADDR、HTTP_VIA、HTTP_X_FORWARDED_FOR是决定性因素。

(一)REMOTE_ADDR

REMOTE_ADDR代表客户机的IP,但是它的值不是由客户机提供的,而是由服务器根据IP指定。

如果您使用浏览器直接访问站点,则站点的web服务器(Nginx、Apache等)将REMOTE_ADDR设置为客户端的IP地址。

如果我们为浏览器设置代理,我们访问目标站点的请求首先通过代理服务器,然后代理服务器将请求转换为目标站点。网站的web代理服务器将REMOTE_ADDR设置为代理服务器的IP。

(二)X-Forwarded-For(XFF)

X-Forwarded-For是HTTP扩展头,用于表示HTTP请求端的真实IP。当客户端使用代理时,网络代理服务器不知道客户端的真实IP地址。为了避免这种情况,代理服务器通常会添加X-Forwarded-For的头部信息,并将客户端的IP添加到头部信息中。

X-Forwarded-For请求头格式如下:

X-Forwarded-For:client,proxy1,proxy2

client表示客户端的IP地址;proxy1是离服务器最远的设备IP;proxy2是次级代理设备的IP;从格式上可以看出,从client到server可以有多层代理。

在HTTP请求到达服务器之前,通过3个代理Proxy1、Proxy2、Proxy3,IP分别为IP1、IP2、IP3,用户的实际IP为IP0时,根据XFF标准,服务器最终会收到以下信息

X-Forwarded-For:IP0,IP1,IP2

Proxy3直接连接到服务器,并将IP2添加到XFF,以帮助Proxy2转发请求。列表中没有IP3,IP3可以在服务器上通过RemoteAddress字段获得。众所周知,HTTP连接是以TCP连接为基础的,HTTP协议中没有IP概念,RemoteAddress来自TCP连接,这意味着与服务器建立TCP连接的设备IP就是IP3。这里我建议爬虫使用http的时候尽量用像太阳http这样正规的产品

(三)HTTP_VIA

via是HTTP协议中的header,记录了HTTP请求的代理和网关,通过一个代理服务器添加一个代理服务器的信息,通过两个添加两个。

“爬虫代理IP的类型和原理是什么”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站,小编将为大家输出更多高质量的实用文章!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

ip
AI