从首页里的链接一层一层爬取整个网站的页面。
那如何停止的?(判断把整个网站爬取完的条件是什么?)
scrapy-redis 的疑问:
去重问题:
dupefilter.py 里面的源码:
def request_seen(self, request):
fp = request_fingerprint(request)
added = self.server.sadd(self.key, fp)
return not added
去重是把 request 的 fingerprint 存在 redis 上,来实现的吧?那大规模抓取不就很耗费内存?每条没读过的链接都存。
有没有人试过用 bloomfilter 结合 scrapy — redis 来去重。有没有必要?
那如何停止的?(判断把整个网站爬取完的条件是什么?)
scrapy-redis 的疑问:
去重问题:
dupefilter.py 里面的源码:
def request_seen(self, request):
fp = request_fingerprint(request)
added = self.server.sadd(self.key, fp)
return not added
去重是把 request 的 fingerprint 存在 redis 上,来实现的吧?那大规模抓取不就很耗费内存?每条没读过的链接都存。
有没有人试过用 bloomfilter 结合 scrapy — redis 来去重。有没有必要?