pockry
V2EX  ›  问与答

爬 RSS 设置多长的时间间隔比较好?

  •  
  •   pockry · Apr 28, 2019 · 3197 views
    This topic created in 2596 days ago, the information mentioned may be changed or developed.

    写了个 rss 爬虫练练手,想问问爬 rss 一般设多长的时间间隔比较好?

    RSS 官网文档好像建议一个小时一次,不过我比较注重实时性,像 cnbeta 这种一小时更新十几篇的,如果 rss 只输出 10 篇,我都不一定能爬的全。

    像某些 rss reader 好像会根据 rss 的更新频率自动设置一个抓取频率,这个需要一定的历史数据量,我也搞不起。

    所以一个比较礼貌又比较实用的 rss 抓取频率设置为多少为好? 5 分钟一次会不会被 ban ?

    4 replies    2019-04-28 18:02:38 +08:00
    Ultraman
        1
    Ultraman  
       Apr 28, 2019   ❤️ 1
    反正是练手,抓取到的内容并不重要,换个更新没那么频繁的网站抓去
    jifengg
        2
    jifengg  
       Apr 28, 2019   ❤️ 1
    rss 协议里面有个下次获取时间(之类的),不过我看了一些 rss 服务,有的没有这个值,有的这个值比较大。
    我自己是 500 秒获取一次,目前没有出现被 ban 的
    airyland
        3
    airyland  
       Apr 28, 2019   ❤️ 1
    rss 会返回 ttl 定义,http://www.w3school.com.cn/rss/rss_tag_ttl.asp 。如果不定义,5 分钟是一个还可接受的频率。
    agagega
        4
    agagega  
       Apr 28, 2019 via iPhone
    RSS 里一个 xml 的条目最大数量有规范么?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2698 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 10:15 · PVG 18:15 · LAX 03:15 · JFK 06:15
    ♥ Do have faith in what you're doing.