标签: crawler
日常中经常会碰到收藏的链接隔段时间就 404 打不开的情况,可能是作者或网站自己删除了,也有可能是因为不可抗拒因素被和谐。如果我们在收藏链接的时候直接将网页快照保存下来,那就万事大吉了。
爬虫经常会碰到的一个问题就是获取目标网页的内容需要用户登录,而一贯的做法就是模拟用户登录,获取cookie后再抓取网页内容。不过,今天让我们来另辟蹊径……
最近在爬一个网站的数据,代码写得差不多了,结果却发现这个网站一言不合就封IP……然而道高一尺魔高一丈,封IP这种小技巧这么奈何得了我!