算是一个外包需求,不过我没有时间接,而且价格不高,帮同行问问。
一个新媒体(主要是微信公众号)要给某小机构写每日热点分析什么的,但是预算不多,所以想用类 AI 技术来每天抓取几个网站的新闻做资料库,然后再让一个金融科班背景的员工复制粘贴一下。
之前没有做过类似的事情,这里好奇跟大家讨教一下方案。
1.抓取资料 - requests 库
这块应该是 python 的强项吧,写个守护进程定时轮询目标网站的更新,当目出现命中特定 keyword 的文章时就 down 下来。
2.资料归类 - ???库
这个领域不熟悉,因为涉及到 NLP 的,大学时候学过的是计算资料库中每一篇文章的包含特定 keyword 个数,统计当天热点 keyword,然后把热点 keyword 的前几片文章内容提取。
3. 拷贝内容
人肉剪切合并文章内容发送
我们大致讨论的技术细节如上,我觉得这个是伪需求,但是每周公众号阅读量却是该机构市场组的 kpi。。。。
一个新媒体(主要是微信公众号)要给某小机构写每日热点分析什么的,但是预算不多,所以想用类 AI 技术来每天抓取几个网站的新闻做资料库,然后再让一个金融科班背景的员工复制粘贴一下。
之前没有做过类似的事情,这里好奇跟大家讨教一下方案。
1.抓取资料 - requests 库
这块应该是 python 的强项吧,写个守护进程定时轮询目标网站的更新,当目出现命中特定 keyword 的文章时就 down 下来。
2.资料归类 - ???库
这个领域不熟悉,因为涉及到 NLP 的,大学时候学过的是计算资料库中每一篇文章的包含特定 keyword 个数,统计当天热点 keyword,然后把热点 keyword 的前几片文章内容提取。
3. 拷贝内容
人肉剪切合并文章内容发送
我们大致讨论的技术细节如上,我觉得这个是伪需求,但是每周公众号阅读量却是该机构市场组的 kpi。。。。