kisshere
V2EX  ›  问与答

求高手,抓取网页时, URL 中的 uid 不是数字咋整?

  •  
  •   kisshere · Feb 5, 2015 via Android · 3125 views
    This topic created in 4146 days ago, the information mentioned may be changed or developed.
    一般网页用户个人主页都是www.abc.com/user/123,下一个用户就是www.abc.com/user/124,这样抓取页面时递增uid就可以了,但是遇到了网站不是根据uid来查询的,而且用户名和查询的username也不一致,比如一个叫"张三"的网友,个人主页是www.abc.com/user/xyz,这个"张三"和xyz有毛关系啊,遇到这种网页,怎样遍历所有用户?想了很久都想不出,请教高智商的V友们回答
    9 replies    2015-02-05 15:50:42 +08:00
    pwk945
        1
    pwk945  
       Feb 5, 2015   ❤️ 1
    这个是很正常的行为,一般网站都对id进行转码的,就是为了防止你这样遍历所有用户的行为。如果你十分想遍历,请找出其转码规则。
    至于找转码规则这件事的时间,则依赖对方网站规则复杂度与题主智商
    abelyao
        2
    abelyao  
       Feb 5, 2015
    説白了人家這樣設計就是為了防止你這樣的遍歷,還有防止別人一眼看出有多少用戶量
    NewYear
        3
    NewYear  
       Feb 5, 2015
    看看有没有所有用户列表的地方,如果没有,看看有没有搜索用户的功能,26个字母都搜索一次,如果还没有,那你问我,我问谁去?
    b821025551b
        4
    b821025551b  
       Feb 5, 2015
    自己往上拼吧,a-z,aa-zz,还有字符神马的,否则应该无解
    learnshare
        5
    learnshare  
       Feb 5, 2015
    uid 自增就是为了方便你脱裤的
    qiayue
        6
    qiayue  
    PRO
       Feb 5, 2015
    楼主放弃吧,知乎私信不是那么好发的
    greatghoul
        7
    greatghoul  
       Feb 5, 2015   ❤️ 1
    百度 inurl:zhihu.com/people/
    kisshere
        8
    kisshere  
    OP
       Feb 5, 2015 via Android
    @qiayue
    @greatghoul 额。。。我不是在抓知乎
    greatghoul
        9
    greatghoul  
       Feb 5, 2015
    @kisshere 只是举个例子罢了。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2742 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 41ms · UTC 15:37 · PVG 23:37 · LAX 08:37 · JFK 11:37
    ♥ Do have faith in what you're doing.