我们在做爬虫的过程中经常会遇到这样的情况,如何让爬虫畅通无阻地高效稳定地夜以继日地永不停息地工作,正常抓取数据,一切看起来都是那么美好,然而再长时间频繁抓取后可能就会出现错误,比如403 Forbidden,活着503 service unavailable这样的超出连接数错误,这时候打开网页一看,可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫的限制措施。比如,服务器或者机房出口的防火墙会检测某个IP在单位时间内的请求次数太多,或者连接数超过了某个阈值,就会直接拒绝服务,返回一些错误信息,这种情况下封IP,就需要更换IP去继续爬取数据。 既然服务器检测的是某个IP单位时间的请求次数,那么借助某种方式来伪装我们的IP,让服务器识别不出是由我们本机发起的请求,不就可以成功防止封IP了吗?那么爬虫换IP,爬虫使用拨号vps还是代理IP软件好? 1.拨号vps 动态IP的云主机也就是拨号VPS,通过拨号换IP的VPS,拨号VPS都是接的双线路,其固定IP端是接的IDC线路做管理用,而通过ADSL线路(也称作PPPOE,PPPOE(Point to Point Protocol over Ethernet)以太网点到点协议,指的是在ISP端把PPP终结的一种接入的方式)进行拨号上网处理数据用,每拨号一次号,就变一次IP。这些服务器都是直接托管放置于标准IDC机房,宿主服务器都是365X7X24工作,然后直接将PPPOE专线入IDC机房,让每天宿主服务既拥有固定IP的IDC出口,也拥有PPPOE线路。 一般拨号VPS的服务商采购的PPPOE线路都是企业独家资源,比如老兵IDC主要就是做湖北地区的,IDC的PPPOE链路在连通保障率上与普通家庭宽带用户不是一个保障级别,其服务器与运营商的BARS链路直连,中间不经过其他第三方设备,稳定性远超于一般家庭宽带用户,不像家用宽带,是从核心网到城域网到汇聚层,然后各片区的接入层最后到小区的楼道交换机然后到家里电脑,跨越很多层。根据目前我们实际的使用经验来看多个地区的PPPOE链路的稳定性基本可以达到连通率99.5%以上。一般受当地运营商的网络调整割接等影响,IDC机房的PPPOE链路影响和恢复速度肯定是优于家庭宽带用户的。 另外拨号VPS又分单地区和混拨两种。 单地区就是购买的这一台机器只能在单独地区有限的更换IP,混拨的意思就是这一台机器可以换IP 是全国各地的。两种机器价格都的差不多,那购买哪种合适自己呢?其实主要是看自己的应用需求,因为这两种拨号出来的效果是不一样的。 单地区的是拨号VPS,其线路是直接接的当地运营商的BRAS系统,拨号认证也是运营商的账户认证,拨号出来的IP地址是公网IPV4的地址,其带宽速度都是跟正规的宽带账户是一样的,甚至更好。就是这台机器独享这个唯一的IP地址。可以通过看机器网卡的状态显示出来的IP地址和通过浏览器访问ip138得出的结果是一样的。而且相当于这个机器的IP地址是完全暴露在公网上,除了特定端口外,这个机器的大部分端口都是可以直接可以对外,可以单独提供服务的。其IP地址数量取决于当地运营商的IP数量了 而混拨的VPS,就是服务商做的二次拨号认证,一般是用的ROS系统,其拨号速度也慢一些,不可能有秒拨,而且拨号后获取的本机的IP实际是一个内网IP地址,是与其他机器通过NAT共享一个公网IP的形式,端口也都是无法对外开放的,也就是是只能访问外面用途而已。依旧可以通过对比网卡状态里的IP和实际访问的IP是不同的。而且带宽速度也是共享的,相对比较慢一些。其混拨的IP地址池,也是取决去服务商自己加入的地区数量。 所以针对这两类产品的比较,也很容易得出哪种VPS适合自己的应用了,一般来说对网络速度没有要求,但是有需要IP数量多,可以跨域多地区的,并且不需要独一IP的适合选择混拨的VPS,对于带宽大,有些计算速度快,IP不需要跨越式变动,需要定在某一区域内变动的的应用就适合选择单地区的VPS了。 另外在寻求服务商的时候,一定要拥有IDC,ISP还有VPN资质三证齐全的公司,如上图就是IDC资质证书,有些服务商是网络公司规模化运营了,但是都没有专门的资质,对于真正的这种动态IP云主机的服务商来说,至少需要IDC和ISP资质的,IDC资质是代表可以运营建设数据中心机房,ISP资质是可以自己做接入服务商甚至有些地方还需要VPN资质还有云计算牌照,因为很多线路需要跨过山河大海,如果没有专网资质也是违法违规的。在这种鱼龙混杂的情况下,选择一家有资质,有实力,靠谱的服务商多么重要。 之前就有朋友遇到过找个人工作室租的服务器,后来人跑路了找不到,费用钱倒不说,放在那里的服务器上的数据也找不回来了,也遇到过没有IDC资质的服务商,外面拉的线路不稳定,三天两条换地方,被网监和通管局查,有的即使是有证的正规服务商,但是自己监管不力,乱接客户,非法的也做后,导致殃及池鱼,甚至有些连公司执照都没有,采购资源想开个发票都开不出来。如下图搜索到多看口碑看有没新闻报道很重要。 在百度里搜索关键词寻找服务商的时候,最好搜索“地区+拨号VPS”,字样: 2.代理IP软件 关于代理IP软件,使用过的朋友应该明白,它只有换ip的功能,并且要在自己本地电脑操作,而且客户如果要做大量任务时候,代理软件就不适用了,必须购买很多电脑才行,所以在代理软件这时候存在了弊端,, 不能满足批量任务需求,对本地电脑安全性也存在影响,例如本地挂QQ,但是用代理IP软件显示ip为异地登录可能被封。但是ip代理软件跟混拨VPS一样,运行后获取的本机的IP实际是一个内网IP地址,是与其他机器通过NAT共享一个公网IP的形式,端口也都是无法对外开放的,也就是是只能访问外面用途而已。依旧可以通过对比网卡状态里的IP和实际访问的IP是不同的。而且带宽速度也是共享的,相对比较慢一些。其混拨的IP地址池,也是取决去服务商自己加入的地区数量。 另外用代理软件,需要本地的电脑或设备一直开着,而且占用本地的硬件资源,那是多么麻烦,有个远程的服务器挂着24小时不停的自动运行会更好些,现在主流都是以远程方式操作,当用户远程上自己的服务器后,默认操作方法和自己本地电脑一样,方便简单,使用流程不需要前期的学习准备,很大程度上提升了用户的体验感简单容易上手。 所以总结,如果是跑PC端的应用而言,我们更愿意选择拨号换IP的VPS,而不用选择代理软件。我们在网上搜到了排名第一的,更是有一家叫老兵拨号VPS,一个专线固定IP管理的远程还可以附带一个独立的宽带拨号,却可以做到月付7,80左右起步的价格,并且还支持日付、周付等更多灵活的付费方式。 那么这么低廉的价格,商家不仅要找运营商采购PPPOE宽带线路,还要提供服务器硬件资源,以及系统的维护和售后工作等等,岂不是倒贴亏本? 而我们所了解到的这是一家湖北武汉的公司,武汉网盾科技有限公司旗下的老兵IDC团队(www.plaidc.com),是一群由退伍老兵组建起来的互联网公司, 产品和服务口碑都非常好,而且IDC/ISP双证齐全,这家公司成立10多年以来。 PLA是(People's Liberation Army of China)的缩写,互联网数据中心(Internet Data Center)简称IDC,公司域名定为PLAIDC.COM寓意着像中国人民解放军一样,作风优良,训练有素,用坚实的服务为保障有力,为客户提供稳定高效的服务。 正因如此,老兵拨号VPS的ADSL拨号才能以薄利多销的价格和保障有力的服务运营,提供给爬虫采集之类,各种互联网分布式计算需求动态IP的客户。这些服务器都是直接托管于其公司运营的标准IDC机房,都是采用的专用的双路XEON架构机架式服务器,宿主服务器都是365X7X24工作,然后直接接入PPPOE专线入IDC机房,不像有些工作室或者小网络公司是用的PC架构的服务器放置在家里或办公室等普通环境,无法保障稳定电力和空调环境以及网络环境。因而,建议购买拨号VPS云主机也是要选择正规公司,并且需要有专业的IDC/ISP运营资质,避免不必要的风险。 正规IDC公司的服务器与运营商的BARS可以说同一大楼或者是同一机房。链路与BARS直连,中间不经过其他第三方设备,稳定性可想而知,远超于一般家庭宽带用户,不像家用宽带,是从核心网到城域网到汇聚层,然后各片区的接入层最后到小区的楼道交换机然后到家里电脑,跨越很多层。 正规公司采购的PPPOE线路都是独家资源,IDC的PPPOE链路在连通保障率上与普通家庭宽带用户不是一个保障级别。像接入到IDC的线路那样有割接中断都会由运营商提前发通告给用户。 根据目前我们实际的使用经验来看多个地区的PPPOE链路的稳定性基本可以达到连通率99.5%以上。基本很多割接调整电信都会安排在凌晨进行,并且中断都很短暂,且出现这个情况的频率很低。一般受当地运营商的网络调整割接等影响,IDC机房的PPPOE链路影响和恢复速度肯定是优于家庭宽带用户的。