kaiki
V2EX  ›  问与答

有没有办法查找相似数据来判断用户是否在发布重复的内容

  •  
  •   kaiki · Jan 24, 2021 · 2212 views
    This topic created in 1961 days ago, the information mentioned may be changed or developed.
    为了防止无意义的灌水做反垃圾,但是现在灌垃圾的手段升级了,他会爬取正常的用户发言,然后灌进来。
    目的只是为了给我的服务器增压好让我每天能多支付一些服务器费用。

    特征大概是连续发布、复制已存在的内容、无法访问则自动换代理 IP 发布。

    不从账号入手,因为低门槛,想从用户行为来判断是否为灌垃圾。

    数据库是 mysql 。
    6 replies    2021-01-24 17:55:34 +08:00
    kaiki
        1
    kaiki  
    OP
       Jan 24, 2021
    对了,我也想在用户的权重上做一些设定,比如有明显灌水行为的账号权重会急速下滑,对于正常账号在偶然触发检测也可以正常放行,有思路吗?
    jangit
        2
    jangit  
       Jan 24, 2021 via iPhone
    正常来说这些问题应该用验证码解决吧
    renmu123
        3
    renmu123  
       Jan 24, 2021 via Android
    设置账号发帖间隔,人工审核加举报,发现一次警告,二次封号封 IP 。
    想从行为入手,你首先得定义什么是灌水,如果是论坛还有不同板块那就更麻烦了。
    一般好像都是论坛各版主自己手动处理+封号
    oott123
        4
    oott123  
       Jan 24, 2021 via Android
    要解决楼主内容里的描述问题,前面几位的回复方法比较不错

    要解决楼主标题里提出的问题,可以用 simhash
    s2019
        5
    s2019  
       Jan 24, 2021 via iPhone
    考虑用文本相似度做比较,可以用机器学习的方式来实现
    kaiki
        6
    kaiki  
    OP
       Jan 24, 2021
    @renmu123 这个检测并不是严格的,对于连续发布相同内容的灌垃圾行为才需要处理。
    @jangit 的确有考虑在发布量发生明显变多的情况下启动验证码,但是对想搞破坏的人来说改变不了什么,这种人是单纯的太闲。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4894 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 01:09 · PVG 09:09 · LAX 18:09 · JFK 21:09
    ♥ Do have faith in what you're doing.