BackBox
V2EX  ›  问与答

V2EX禁止抓取?

  •  
  •   BackBox · Apr 29, 2013 · 4319 views
    This topic created in 4789 days ago, the information mentioned may be changed or developed.



    想抓取V2EX的酷工作。
    14 replies    1970-01-01 08:00:00 +08:00
    dreamage
        1
    dreamage  
       Apr 29, 2013
    @ L 老板问问
    BackBox
        2
    BackBox  
    OP
       Apr 29, 2013
    yibin001
        3
    yibin001  
       Apr 29, 2013
    http头里加一个referer=v2ex.com应该就好了
    swulling
        4
    swulling  
       Apr 29, 2013
    抓取是禁不了的
    orzfly
        5
    orzfly  
       Apr 29, 2013
    同,ucweb(塞班)访问也是400。
    (别pia我说换手机或者不用uc,你若真用塞班还是会觉得uc很有必要的)
    hzlzh
        6
    hzlzh  
    PRO
       Apr 29, 2013
    不用抓,api现成的,try:
    http://v2ex.com/api/topics/show.json?node_id=43
    wuyamoyun
        7
    wuyamoyun  
       Apr 29, 2013
    塞班可以用opera正常
    jacy
        8
    jacy  
       Apr 29, 2013
    模拟成一个正常的浏览器试试,加上rederer,cookie之类的。
    iloahz
        9
    iloahz  
       Apr 29, 2013
    借楼抱个不知道是特性还是bug的东西:在wp系统的uc浏览器中,后退键的结果是乱的。比如我访问首页->某主题,然后后退,有时就知道退到uc的首页了,也就是跳过了v2ex的首页
    @Livid
    GordianZ
        10
    GordianZ  
       Apr 29, 2013
    没有 user agent 的全部返回 400.
    mikuazusa
        11
    mikuazusa  
       Apr 29, 2013
    @GordianZ @BackBox 貌似听L说是V2EX的防DDos逻辑里加了对HTTP Request Header的检测...可以试试伪造一个完整的Header去抓,另外即使有UA貌似不符合规则的貌似也一样400
    workaholic
        12
    workaholic  
       Apr 30, 2013   ❤️ 1
    部分节点需要登录,肯定可以抓的
    BackBox
        13
    BackBox  
    OP
       Apr 30, 2013
    @mikuazusa 有理!!
    居然为了防DDOS加了HTTP Request header验证,

    但是iptables不能对http request header验证。
    到了应用服务器验证,也就没有多大效果了。。毕竟也阻塞了。
    yeshang
        14
    yeshang  
       Apr 30, 2013
    明显 @Livid 不理你
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3851 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 76ms · UTC 10:20 · PVG 18:20 · LAX 03:20 · JFK 06:20
    ♥ Do have faith in what you're doing.