这是项目地址 https://github.com/shuizhengqi1/MaiMaiSpider/
目前想采集脉脉网上的用户信息,拿来做数据分析。通过对前端代码分析之后找到了请求的 api。 我的思路是以一个用户为入口,获取到对他有兴趣的人然后往下爬。 现在找到了两个 api,https://maimai.cn/contact/comment_list/(简称 clist ) 和 https://maimai.cn/contact/interest_contact/(简称 ilist ) clist 里面可以获取到用户的信息以及拿来构建 url 的 encode_mmid ilist 里面能获取到对用户感兴趣的人的 encode_mmid
现在我的做法是先开一个进程,不断请求 ilist 获取到 encode_mmid,然后存储到队列里,然后使用多线程去从队列里面取 encode_mmid 加工成 url,获取到相关的信息并存入到数据库中
现在遇到的问题是经常跑着跑着就停止了,而且由于圈子的问题,例如程序员的圈子里面对他有兴趣的基本都是程序员,感觉是一直在一个圈子里面重复的爬取。另外脉脉网队这个 api 还做了限制,连续访问多次的话就会回复报错信息,但我访问网页的话信息还是能正常显示的,不晓得该怎么解决。。。
求各位大神指点