V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
KingZZZZ
V2EX  ›  Python

爬虫开发工作中,你们是如何基于 AI 进行提效的?

  •  
  •   KingZZZZ · 19 小时 12 分钟前 · 1606 次点击

    各位彦祖,由于公司给出了 AI 提效的压力,想请教一下各位,在爬虫开发工作中,是如何基于 AI 进行提效的,希望能深入一些。

    17 条回复    2026-04-09 17:47:01 +08:00
    samersions
        1
    samersions  
       18 小时 57 分钟前 via iPad
    写个 todo.md 让他去爬某个网站 agent 会自己分析,如果爬出来的不合要求就提点一下(哪个元素的哪个值),他自己全都搞好了。没有什么值得研究的了,因为不上 ai 自己要研究元素,上了 ai 他自己全部搞完没有给你留下自己干预的空间😂
    KingZZZZ
        2
    KingZZZZ  
    OP
       18 小时 53 分钟前
    @samersions 方便说明一下使用的什么 agent 还有什么技能吗?
    members
        3
    members  
       18 小时 52 分钟前
    我感觉用颠覆形容比较准确。直接告诉他抓哪个网站,它会自己去不断的尝试、切换方案,最终成功。
    samersions
        4
    samersions  
       18 小时 51 分钟前 via iPad
    gemini-cli 和 opencode+glm5 ,没有额外装技能
    evan1
        5
    evan1  
    PRO
       18 小时 49 分钟前
    @members #3 遇到有反爬的需要抓包分析的,AI 也能自己尝试吗
    glacer
        6
    glacer  
       18 小时 47 分钟前   ❤️ 1
    @evan1 可以的,调 chrome mcp 可以用 ai 分析 js ,一般的加密,混淆甚至 jsvmp 都可以处理。
    cairnechen
        7
    cairnechen  
       17 小时 55 分钟前
    楼上的各位兄弟让 agent 去爬虫的时候没有遇到安全限制么?比如付费内容不让爬,成人内容不让爬
    HotieCutie
        8
    HotieCutie  
       17 小时 18 分钟前
    有反扒的网站,根本就不行,ai 解决不了
    jonty
        9
    jonty  
       16 小时 59 分钟前
    唯一的限制是,现在有些 ai 的道德感太强。说的就是你,close ai
    fkdtz
        10
    fkdtz  
       16 小时 39 分钟前
    体感上来说,纯代码、数据层面的东西基本可以全部交给 AI 了
    但想要规模化必然会涉及到 IP 、账号等这些实物的东西,而这些方面 AI 似乎能够发挥的作用有限

    AI 搞定那些可以数字化的东西问题不大,涉及到实物作用有限
    ydong
        11
    ydong  
       16 小时 23 分钟前
    @glacer 你让 ai+mcp 试试套了阿里云 waf 触发的 js 验证的网站,稍微有点风控和反爬,ai 就歇菜了
    kamilic
        12
    kamilic  
       16 小时 9 分钟前
    没风控和 captcha 的平台让他自己在里面游走下就写出来爬虫操作了,ai 分析稳定的部分挺好的,但是爬虫最怕不稳定,突然之间给你加点变化的那就歇菜,这些分支逻辑还是得趟的。
    namebai
        13
    namebai  
       16 小时 4 分钟前   ❤️ 1
    我目前只会爬一些简单的接口 去搭建自动化的 workflow ,一般我会打开控制台 network ,然后录制一段时间请求,导出 HAR 文件,扔给 AI 自己分析,说出我的需求他就能把很多接口给我找到,感觉挺好用的。
    glacer
        14
    glacer  
       15 小时 53 分钟前
    @ydong 我不是说了偏简单的反爬可以处理,至少可以辅助做很多脏活了
    feiniu
        15
    feiniu  
       15 小时 35 分钟前
    我总感觉,复杂的 HTML 结构,给 AI 写解析脚本,写的总是不够好。
    hantconny
        16
    hantconny  
       15 小时 9 分钟前
    不知道能不能爬 facebook 的发帖时间,我自己干的时候需要从 network 里过滤特定的请求,仅分析静态页面是不行的,不知道道德感强的 ai 愿不愿意干
    enrolls
        17
    enrolls  
       12 小时 34 分钟前
    https://good-jobs.pages.dev/ 开始你的练手吧
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   973 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 22:21 · PVG 06:21 · LAX 15:21 · JFK 18:21
    ♥ Do have faith in what you're doing.