一般网页用户个人主页都是www.abc.com/user/123,下一个用户就是www.abc.com/user/124,这样抓取页面时递增uid就可以了,但是遇到了网站不是根据uid来查询的,而且用户名和查询的username也不一致,比如一个叫"张三"的网友,个人主页是www.abc.com/user/xyz,这个"张三"和xyz有毛关系啊,遇到这种网页,怎样遍历所有用户?想了很久都想不出,请教高智商的V友们回答
1
pwk945 Feb 5, 2015 这个是很正常的行为,一般网站都对id进行转码的,就是为了防止你这样遍历所有用户的行为。如果你十分想遍历,请找出其转码规则。
至于找转码规则这件事的时间,则依赖对方网站规则复杂度与题主智商 |
2
abelyao Feb 5, 2015
説白了人家這樣設計就是為了防止你這樣的遍歷,還有防止別人一眼看出有多少用戶量
|
3
NewYear Feb 5, 2015
看看有没有所有用户列表的地方,如果没有,看看有没有搜索用户的功能,26个字母都搜索一次,如果还没有,那你问我,我问谁去?
|
4
b821025551b Feb 5, 2015
自己往上拼吧,a-z,aa-zz,还有字符神马的,否则应该无解
|
5
learnshare Feb 5, 2015
uid 自增就是为了方便你脱裤的
|
6
qiayue PRO 楼主放弃吧,知乎私信不是那么好发的
|
7
greatghoul Feb 5, 2015 百度 inurl:zhihu.com/people/
|
8
kisshere OP |
9
greatghoul Feb 5, 2015
@kisshere 只是举个例子罢了。
|