不考虑被爬网站的各种限制，有什么方法可以加快爬虫的速度？ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2938 天前的主题，其中的信息可能已经有所发展或是发生改变。

只需要页面的 status 状态码，有什么方法可以最大化爬虫的速度。

单机，CPU AMD 1700 100M 宽带。

现在用 python 写的，1 小时能爬 30W+的 URL

还有其他方法可以加快速度？

其他语言的也可以推荐。

10 条回复 • 2018-01-12 15:01:42 +08:00

1

justfly

2018 年 1 月 11 日

2

首先确定瓶颈在哪里。

如果是阻塞的 IO 可以换非阻塞的 IO，便于榨干 CPU. 然后开多个线程并绑定到每个核心上。

之后看 CPU 和带宽哪个先成为瓶颈，如果带宽不够用了，考虑只发 HEAD 请求，或者自己实现 HTTP Client 读完头部就关连接。如果 CPU 先成瓶颈那就换语言吧

代码逻辑上尽量增大并行度。

2

fiht

2018 年 1 月 11 日

楼上大佬说得对。讲得很全面了。
还有一点就是做好 DNS 缓存，这个对爬虫性能影响很大。

3

akira

2018 年 1 月 12 日

先粗暴的加机器

4

tSQghkfhTtQt9mtd

2018 年 1 月 12 日 via Android

@fiht 有点在意 DNS 缓存要怎么做，前几周查了老半天。。（有个 python dns 请求量爆炸，不知道为啥全部都往上游发 dns，本地完全没缓存

5

qsnow6

2018 年 1 月 12 日 via iPhone

scrapy

6

mon3

OP

2018 年 1 月 12 日

@qsnow6 没有自己写的快。

7

Akkuman

2018 年 1 月 12 日

@justfly
> 自己实现 HTTP Client 读完头部就关连接
请问下这个怎么实现？自己实现 HEAD 请求还是？

8

qsnow6

2018 年 1 月 12 日

@mon3 不知道你怎么写的，scrapy 单进程 7000 page /min 跟玩一样

9

justfly

2018 年 1 月 12 日

@Akkuman

这是我的一个脑洞，能用 HEAD 当然优先 HEAD 请求，考虑到很多网站不接受 HEAD 请求，只能 GET，但楼主想要极致速度，就要节省带宽，你就要自己发 GET 请求，读完头部就别再管很大的 body 了。

这个实现要到直接操作 socket 了。

10

Akkuman

2018 年 1 月 12 日

@justfly 谢谢提示^-^

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 4325 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 29ms · UTC 04:08 · PVG 12:08 · LAX 20:08 · JFK 23:08
♥ Do have faith in what you're doing.