• 隐藏侧边栏
  • 展开分类目录
  • 关注微信公众号
  • 我的GitHub
  • QQ:1753970025
Chen Jiehua

代理IP抓取 

花了一个晚上的时间,写了一个代理IP抓取的脚本,还算是挺实用的啦~~~

项目

https://github.com/jiehua233/ipproxy

突然发现ipproxy被人fork了两次,clone了好几次,短短半个月就有挺多查看的,看来可以继续加油写一些开源的有用工具。

原理说明

通过不断在各大代理IP网站上抓取数据,同时在本地进行代理测试,提取可用的代理IP,并记录其时延,将数据以有序集合保存到redis sorted sets.

程序定期进行数据刷新,删除过期的代理IP,同时抓取新的数据.

代理IP分为三个匿名等级:高匿, 普匿, 透明; 程序中以3, 2, 1标记, 0:未知;可以通过修改validate.py中的r=[3, 2, 1]指定抓取等级;

保存在redis中的数据,key: proxy_ip_ping_3, proxy_ip_ping_2, proxy_ip_ping_1;

 

数据来源

http://www.cz88.net/proxy/http_2.shtml
http://blog.kuaidaili.com/
http://www.ip002.com/

图片验证 http://ip.zdaye.com/
http://www.kuaidaili.com/free/inha/
http://www.xici.net.co/
http://cn-proxy.com/archives/218
http://cn-proxy.com/
http://www.66ip.cn/3.html

码字很辛苦,转载请注明来自ChenJiehua《代理IP抓取》

评论