Chen Jiehua

分类

标签： crawler

又404，看我手撸网页快照爬虫

日常中经常会碰到收藏的链接隔段时间就 404 打不开的情况，可能是作者或网站自己删除了，也有可能是因为不可抗拒因素被和谐。如果我们在收藏链接的时候直接将网页快照保存下来，那就万事大吉了。

2022-08-20 archive, crawler, python

爬虫之模拟用户登录

爬虫经常会碰到的一个问题就是获取目标网页的内容需要用户登录，而一贯的做法就是模拟用户登录，获取cookie后再抓取网页内容。不过，今天让我们来另辟蹊径……

2017-04-27 cookie, chrome, crawler

爬虫之IP免杀和多并发

最近在爬一个网站的数据，代码写得差不多了，结果却发现这个网站一言不合就封IP……然而道高一尺魔高一丈，封IP这种小技巧这么奈何得了我！

2016-11-20 concurrency, crawler, proxy