$V2EX
Solana
Give SOL to Copy Address
使用 SOL 向 xjiang1982154112 打赏,数额会 100% 进入 xjiang1982154112 的钱包。
 xjiang1982154112 最近的时间轴更新
xjiang1982154112's repos on GitHub
52 人关注
mtywatch
一句话监控网页内容变化,AI | 爬虫 | 网页监控 | 网页更新提醒 | 网页内容订阅
xjiang1982154112
5.21D

xjiang1982154112

猫头鹰智能网页订阅 mtywatch.com
V2EX 第 362734 号会员,加入于 2018-11-13 11:12:51 +08:00
今日活跃度排名 16
8 S 68 B
一句话搞定网页监控 mtywatch.com
xjiang1982154112 最近回复了
@BenCoper @x86 我们只做了轻微的“反-反爬”处理,并且把抓取频率控制在最低 15 分钟。

我们这个产品需求的出发点,是为了服务原来一直都存在的一类人群:
1 、因为自己的工作、学业、娱乐的需要,要盯某几个网站;
2 、不是为了获取大量数据,也不会为了秒级抢购,只是需要一天刷几次网站,甚至几天刷一次;
3 、这类人群,愿意为此付出一点点的金钱,但是无法被有效服务(找不到程序员帮忙写爬虫,也学不来八爪鱼这类的工具);

20 多年前,我接触爬虫技术的时候,就在想办法如何有效服务这些人(挨个写代码配脚本绝对不是好方式,八爪鱼这种方式对普通人还是鸡肋了点)。

这次 AI 技术变革,带来了真正的解决方法。任意一个页面,理论上-_-AI 都能帮你自动识别并抓取。

所以做了这套工具,我们的重点确实不是处理反爬问题,我们的重点只有一个:
相当于你请了一个兼职,每天帮你刷十几次网站,有你关心的数据就通知你;
或者是相当于你请了一个 1 年的程序员,帮你写写代码配脚本,并保证可以持续工作。
而你只要花一点点钱(一个月几块钱)

这是我的初心与设想,不知道是否能有足够的需求群体支撑这个产品走下去(想把 AI 优化的能处理好各种页面和不同需求,难度还挺高 -_-!!)/抱拳/抱拳
@lswlray 重点是因为合规性和防止滥用的考虑,
1 、SaaS 版本只是做内容监控通知,完整内容的抓取,后续会现在浏览器插件版本开发
2 、关于“反-反爬”技术,我们只做轻微的处理(低频率、使用真实浏览器访问)
3 、IP 限制问题,我们仅绕开部分 WAF 会拦截机房 IP 的限制,gfw 的问题不处理,可自行翻墙后用浏览器插件版本
4 、验证码这个问题,暂时不处理

浏览器插件版本会在本月发布
@nananqujava 多个模型组合的,视觉+代码+文本大模型
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1458 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 16:40 · PVG 00:40 · LAX 08:40 · JFK 11:40
♥ Do have faith in what you're doing.