推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Mrrrrr10
V2EX  ›  Python

大众点评是不是把 ip 地址加密到了 cookie 中?还是说它可以识别到代理 ip?

  •  
  •   Mrrrrr10 · Sep 9, 2018 · 5558 views
    This topic created in 2828 days ago, the information mentioned may be changed or developed.

    为什么买到的代理都被识别出来了,自己的 ip 又可以爬取,但是爬取评论必须要 cookie,所以我怀疑是不是 ip 被加密到 cookie 里面,有没有老哥说说

    17 replies    2018-10-09 13:32:54 +08:00
    scukmh
        1
    scukmh  
       Sep 9, 2018
    这不是很正常的操作嘛?自己做一下 Web 开发就知道了啊,很多框架,比如 flask-login,默认的安全级别就是会加入 ip 地址验证的,建议你去爬手机客户端还靠谱一点。
    Mrrrrr10
        2
    Mrrrrr10  
    OP
       Sep 9, 2018
    客户端的信息被隐藏了,都是乱码
    fork3rt
        3
    fork3rt  
       Sep 10, 2018
    我做过大众点评的采集,貌似是这样的。不过我的解决方案就是 IP 代理池,完全没问题啊。
    rocketman13
        4
    rocketman13  
       Sep 10, 2018
    代理 ip 也分质量的
    Mrrrrr10
        5
    Mrrrrr10  
    OP
       Sep 11, 2018
    @fork3rt 我也是有 ip 代理池,免费的自己抓的,付费的也用了,都被识别出来,本机 ip 才可以,你用的哪一家的 ip
    fork3rt
        6
    fork3rt  
       Sep 12, 2018 via Android
    @Mrrrrr10 大象代理那里买的,做个重试机制,重试 10 次 不行的话,再换 IP
    fx0719
        7
    fx0719  
       Sep 12, 2018
    大佬能分享下代码吗?谢谢
    Mrrrrr10
        8
    Mrrrrr10  
    OP
       Sep 12, 2018
    @fork3rt 好的,我试一试,顺便问一下,有没有出现 302 被重定向到验证页面?我是用 cookie 登陆去抓评论的,您也抓评论吗?
    Mrrrrr10
        9
    Mrrrrr10  
    OP
       Sep 12, 2018
    @fx0719 现在我再解决 ip 问题,过一会我放到 github,在 @你
    fork3rt
        10
    fork3rt  
       Sep 12, 2018
    @Mrrrrr10 嗯,我也抓的评论。 貌似有 302 的情况,不过我做了判断,只处理 status_code 200,其他的情况 我都是立刻更换代理,然后重试。
    Mrrrrr10
        11
    Mrrrrr10  
    OP
       Sep 14, 2018
    @fork3rt 老哥,我换了大象代理,依旧不行啊,你模拟登陆了没有,我是用 cookie 模拟登陆的,你呢?
    fork3rt
        12
    fork3rt  
       Sep 14, 2018 via Android
    @Mrrrrr10 我也是用 cookie 持续会话,没遇到你这个问题
    Mrrrrr10
        13
    Mrrrrr10  
    OP
       Sep 14, 2018
    @fork3rt 能分享一下源码吗
    qybing
        15
    qybing  
       Sep 14, 2018 via iPhone
    我也是遇到这个问题,似乎 IP 代理被识别出来了,你们都是登录过去抓的吗?如果要大规模抓取,这样岂不是要有很多账号?
    fx0719
        16
    fx0719  
       Sep 17, 2018
    楼主 github 地址多少,我关注一波
    yxh18600224123
        17
    yxh18600224123  
       Oct 9, 2018
    最近几天在爬,使用的芝麻 HTTP 代理 ip,付费的,遇到最后有评论的详情页面,就会被秒识别代理,直接 ban.而用本机 ip 可以正常获取几十个商户的信息,然后需要验证,暂时没找到解决办法.想找到怎么用付费的代理爬取
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   941 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 39ms · UTC 18:50 · PVG 02:50 · LAX 11:50 · JFK 14:50
    ♥ Do have faith in what you're doing.