问下 v 友们,有没有哪个比较好用的工具可以抓取整个网站的所有网页,都是静态的。
这网站在国外,科学上网了还是慢,想给他全部抓下来,离线看。试了 idm 的站点抓取,提示“连接超时,无法下载文件”,抓不到网页!
1
sedgwickz 2021 年 1 月 1 日 |
2
musi 2021 年 1 月 1 日 via iPhone
写个爬虫放到国外的服务器运行就好了
|
3
mingtdlb OP 土办法 wget 应该是搞定了😂
|
4
oneoyn 2021 年 1 月 2 日
网站发来 我试试
|
5
xuanzz 2021 年 1 月 3 日 试试在国外的服务器、
wget -r -p -np -k ./ https://xxx.com |
7
Y29tL2gwd2Fy 2021 年 1 月 4 日 via Android
github 。com/gildas-lormeau/SingleFile
|
8
mingtdlb OP @Y29tL2gwd2Fy 你这个不行,我要全站!当页 ctrl+s 可以的
|
9
wangritian 2021 年 1 月 4 日
研究下为什么上网慢?我怀疑是网站使用的某个第三方字体或脚本,没在 gfwlist 中,打开 F12 看看吧
|
10
mingtdlb OP @wangritian 我挂了$$了,还是不行。非常慢,无奈 就想着给他抓下来了。但抓下来的,又全是没有扩展名的,浏览器打开是源码,我还得搞个本地的 nginx🤣
|
11
wangritian 2021 年 1 月 4 日
@mingtdlb 只是打开$$不一定走代理,还要确认工作模式,如果是 PAC,会有一个域名列表,包含在内的才走代理,其余直连;全局模式是无脑走代理。切换到全局模式试一下
|
12
xuanzz 2021 年 1 月 6 日 @mingtdlb #6
$ man wget,然后搜索 -np 就有了 -np --no-parent Do not ever ascend to the parent directory when retrieving recursively. This is a useful option, since it guarantees that only the files below a certain hierarchy will be downloaded. |
13
mingtdlb OP @wangritian 这个我确认过了,我用 clash,在 log 里是有看到
|