代理IP抓取
目录
花了一个晚上的时间,写了一个代理IP抓取的脚本,还算是挺实用的啦~~~
项目
https://github.com/jiehua233/ipproxy
突然发现ipproxy被人fork了两次,clone了好几次,短短半个月就有挺多查看的,看来可以继续加油写一些开源的有用工具。
原理说明
通过不断在各大代理IP网站上抓取数据,同时在本地进行代理测试,提取可用的代理IP,并记录其时延,将数据以有序集合保存到redis sorted sets.
程序定期进行数据刷新,删除过期的代理IP,同时抓取新的数据.
代理IP分为三个匿名等级:高匿, 普匿, 透明; 程序中以3, 2, 1标记, 0:未知;可以通过修改validate.py中的r=[3, 2, 1]指定抓取等级;
保存在redis中的数据,key: proxy_ip_ping_3, proxy_ip_ping_2, proxy_ip_ping_1;
数据来源
http://www.cz88.net/proxy/http_2.shtml
http://blog.kuaidaili.com/
http://www.ip002.com/
图片验证 http://ip.zdaye.com/
http://www.kuaidaili.com/free/inha/
http://www.xici.net.co/
http://cn-proxy.com/archives/218
http://cn-proxy.com/
http://www.66ip.cn/3.html
码字很辛苦,转载请注明来自ChenJiehua的《代理IP抓取》
2015-09-02 2016-12-13 proxy
评论