• 请不要在回答技术问题时复制粘贴 AI 生成的内容
qfdk
26.34D
0.15D
V2EX  ›  程序员

爬虫如何快速爬取某搜索 api 中所有数据?

  •  
  •   qfdk ·
    PRO
    ·
    qfdk · May 22, 2019 via iPhone · 3623 views
    This topic created in 2571 days ago, the information mentioned may be changed or developed.

    有个小小的需求, 有一个搜索引擎专门搜索到公司信息的列表 比如 baidu 会出现相关 百度公司的信息. 那么问题来了 如何快速爬(复)取(制) 这里面的所有数据呢? 那搜索 api 全文匹配 。。

    思考的方法以 a-z 为关键字 模糊匹配 然后去重复入库?

    不知道老哥们有没有更风骚的方法

    15 replies    2019-05-23 13:44:58 +08:00
    tikazyq
        1
    tikazyq  
       May 22, 2019
    听说过 xpath 和 css selector 么,爬虫没有这些基本干不了活,除非是用正则匹配。想了解更多爬虫么,关注一下开源爬虫平台 Crawlab 吧,github: http: // github. com/tikazyq/crawlab
    qfdk
        2
    qfdk  
    OP
    PRO
       May 22, 2019
    @tikazyq #1 你没有明白这个问题,相当于一个搜索框要把里面存在的关键词都搞出来 关键词都是公司的名字
    tomczhen
        3
    tomczhen  
       May 22, 2019
    技术我不懂,但是怎么判断爬取到的数据就是所有数据呢?
    newtype0092
        4
    newtype0092  
       May 22, 2019
    你这相当于盲猜啊,都不知道有哪些公司怎么搜?
    可以从其他渠道获取一个公司列表,然后作为 key 用这个 api 去查。
    qfdk
        5
    qfdk  
    OP
    PRO
       May 22, 2019
    @newtype0092 #4 对的 就是盲猜 所以想 用 a-z 的方法 因为都是 外国公司
    hakono
        6
    hakono  
       May 22, 2019 via iPhone
    搂住你自己都给出了解决办法了。
    qfdk
        7
    qfdk  
    OP
    PRO
       May 22, 2019
    @hakono #6 我是想问问有没有更高端的办法
    lbfeng
        8
    lbfeng  
       May 23, 2019
    @tikazyq 爬 API 不是页面
    lbfeng
        9
    lbfeng  
       May 23, 2019
    @qfdk 这样对服务器算攻击吧。
    LukeChien
        10
    LukeChien  
       May 23, 2019 via Android
    ES Query 注入
    qfdk
        11
    qfdk  
    OP
    PRO
       May 23, 2019
    @LukeChien #10 java 写的 后端是 wildfly 服务器

    @lbfeng #9 应该不算吧,但是这个爬的好奇葩 https://www.infogreffe.fr/recherche-siret-entreprise/resultats-recherche-siret-entreprise.html 这个搜索页面 拿数据好困难 找到 api 但是各种奇葩
    dengtongcai
        12
    dengtongcai  
       May 23, 2019 via iPhone
    f12 右键,copy selector …
    zdnyp
        13
    zdnyp  
       May 23, 2019
    首先你要有企业名称的数据,然后调搜索的接口,采集入库
    qfdk
        14
    qfdk  
    OP
    PRO
       May 23, 2019 via iPhone
    @dengtongcai 我知道 但是这里不好用
    qfdk
        15
    qfdk  
    OP
    PRO
       May 23, 2019 via iPhone
    @zdnyp 目的是盲猜 不过目的已经达到了
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2892 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 60ms · UTC 02:01 · PVG 10:01 · LAX 19:01 · JFK 22:01
    ♥ Do have faith in what you're doing.