kasp
V2EX  ›  问与答

关于采集新浪微博的问题

  •  
  •   kasp · May 6, 2015 · 1912 views
    This topic created in 4050 days ago, the information mentioned may be changed or developed.
    想根据关键词采集新浪微博的搜索结果,发现微博的页面展示都是通过js模板来实现的;有没有朋友做过新浪微博的采集或者类似的,给指点一下。
    5 replies    2015-05-09 00:00:18 +08:00
    azuginnen
        1
    azuginnen  
       May 6, 2015
    这样反而好呀,你用api过去返回json不是好解析么,而且明显的,热搜榜那里随便看看,滑到头上的时候又来xxx条新微薄了,肯定是ajax一遍一遍的..............
    kasp
        2
    kasp  
    OP
       May 6, 2015
    @azuginnen 不是json,返回的内容是用unicode编码的html代码夹杂在js里;然后使用js模板来展示的.
    azuginnen
        3
    azuginnen  
       May 6, 2015   ❤️ 1
    @kasp 那你试着抓包客户端试试,或者wap网页的。我试了html还真是如你所说的
    alansalexer
        4
    alansalexer  
       May 6, 2015 via Android
    根据关键词搜索采集新浪微博,这条路坑比较多,当然还是要具体需求具体分析。
    首先,你需要模拟登录,使用webkit渲染页面,页面渲染好之后再取里面的信息。这方面可以利用的工具有python的qt-webkit, nodejs的phantomjs/casperjs。
    其次,新浪会在你取到第50页左右的时候弹出验证码,要么手动输入,要么想办法自动识别验证码(我没有做过)。

    总之如果你以前没有太多爬虫方面知识的话,选新浪微博的搜索页面有点困难了,但学习一下总是好的。
    endoffight
        5
    endoffight  
       May 9, 2015 via Android
    selenium 和 chrome或ff 配合
    我用他抓过twitter的搜索结果

    给你参考一下

    https://github.com/phpgao/twitter_selenium_search
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3808 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 48ms · UTC 04:23 · PVG 12:23 · LAX 21:23 · JFK 00:23
    ♥ Do have faith in what you're doing.