V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jukanntenn
V2EX  ›  问与答

目前 Claude 模型和国产模型的差异,是 iPhone 和国产安卓旗舰的差异还是 iPhone 和诺基亚的差异?

  •  
  •   jukanntenn · 16 小时 39 分钟前 · 858 次点击

    因为封锁 + 懒得折腾,现在个人的 AI 开发套件是 TRAE 国际版 + GLM 4.7 coding plan 。

    目前个人体验是 GLM 4.7 已经基本满足全部开发需求了,TRAE SOLE 模式用完 GPT 5.2 或者 gemini 的额度就切到 GLM 4.7 ,感受不到落差。目前不尽如人意的地方是任务大一点(包含几个可能存在交叉依赖的小任务),这三个模型基本都挂挂,我现在都是尽可能将任务拆成小的原子任务,一次只做一件事,然后 plan -> 执行 -> 验收 -> 让 AI 调整这一套流程走一轮,无论哪个模型都完成的不错。

    现在非常好奇的是如果换 Claude opus 4.5 效果会怎么样,是不是大任务它也可以一次性完成,达到满意的效果?网上看了一些评测,要么就是“Claude 无敌,用了你就回不去了,GPT/GEMINI 反复搞了几个小时,换 Claude 几分钟搞定”这种无意义的评论,要么就是“用 Claude/GPT/GEMINI/GLM 生成一个美观高级的网站”这种无意义的评测,很好奇这些模型在实际开发中到底存在多大的差距。

    如果是 iPhone 和国产安卓旗舰的差异,那我感觉 GLM / MiniMax 之类的国产模型也完全足够日常使用,毕竟这些国产模型对我来说近乎无限量了( GLM 5 小时限额窗口内很少用超 50%),现在每天绞尽脑汁怎么多烧点 token 。而如果是 iPhone 和诺基亚的差异,那应该突破一切封锁去使用 Claude 模型,毕竟时间也是金钱。

    后续我想计划在实际开发场景下对比测试 GLM/MiniMax/Doubao 和 Claude 模型。想听听大家的看法,或者分享分享在实际开发场景下的对比。

    13 条回复    2026-01-25 18:49:30 +08:00
    zizon
        1
    zizon  
       16 小时 33 分钟前
    看了正文确定你的标题是认真的.
    Linioi
        2
    Linioi  
       16 小时 19 分钟前   ❤️ 3
    我感觉还是看你问题的难度。
    就像一张卷子,GLM 考 99 分可能是它只能考 99 分,Claude 考 100 分是因为卷子只有 100 分。
    Claude Opus 4.5 使用体验真的很不错,从语气到实际表现我都挺满意的,也不像以前模型总喜欢吹嘘自己代码是生产级。所以可以用 Claude Opus 4.5 我基本不考虑别的模型。
    shakaraka
        3
    shakaraka  
    PRO
       16 小时 14 分钟前
    有点疑惑,你想知道差距你自己试试不就知道了,别人和你说的都是主观评价
    jukanntenn
        4
    jukanntenn  
    OP
       16 小时 12 分钟前
    @shakaraka 嗯,目前处于计划中,动手前听听大家的经验也不错。v2ex 真实开发者居多,他们的感受比小红书、知乎那些营销号可信度高很多。
    billzhuang
        5
    billzhuang  
       15 小时 54 分钟前 via iPhone
    这事为什么要计划?
    skyflower
        6
    skyflower  
       15 小时 34 分钟前
    你在 Antigravity 里,使用 Claude 是免费的,你现在就可以去试试了
    Bijiabo
        7
    Bijiabo  
       15 小时 32 分钟前
    你买手机的时候,会考虑自带反诈中心的的型号么?
    technode
        8
    technode  
       15 小时 18 分钟前
    @Bijiabo 可能你会考虑内置 ICE 的型号
    xing7673
        9
    xing7673  
       15 小时 13 分钟前   ❤️ 1
    我个人觉得 claude o45 只是可玩性高速度快,准确度不如 gpt ,算不上是最 top 的模型,所以没法用 iphone 对比,既然你觉得 gpt 和 glm 没有落差,那 claude 也不会让你感到有落差。
    除非 trae 没有用 gpt 的 high 思考深度
    opus 还是吹的人太多了
    sillydaddy
        10
    sillydaddy  
       15 小时 8 分钟前   ❤️ 1
    https://openlm.ai/chatbot-arena/#:~:text=1445-,1460,-68

    可以看一下 Elo 得分数据,好像是根据 6 百万用户的无数投票得出的评分对比:
    Elo 基本是所有赛事都常用的评分机制:围棋、游戏、赛车等等。

    Elo 胜率公式:胜率 = 1 / (1 + 10^(分差/400))

    Elo 相差 10 分 胜率 51.4% vs 胜率 48.6%,几乎无差别,运气因素更大
    Elo 相差 50 分 57.1% 42.9% 略有优势,需要多次对局才能体现
    Elo 相差 100 分 64.0% 36.0% 明显优势,约 2:1 的胜率
    Elo 相差 200 分 76.0% 24.0% 显著优势,约 3:1 的胜率
    Elo 相差 400 分 90.9% 9.1% 碾压性优势,约 10:1 的胜率
    Elo 相差 1000 分 99.0% 1.0% 几乎不可能输,约 100:1 的胜率


    目前的 Opus 4.5 thinking 领先 GLM 4.7 大概 50 分:
    https://openlm.ai/chatbot-arena/#:~:text=1445-,1460,-68

    什么意思呢?用户问 2 个 AI 一个同样的编程问题,平均用户采纳各自答案的概率分别是:57.1% vs 42.9%

    当然,这必须要考虑编程的特殊性,考虑它跟直接围棋 PK 的差别。

    差别就在于,用户在比较 2 个 AI 的解决方案的优劣时,待 Coding 的问题是什么困难级别的。如果都是简单级别的,那高手之间基本看不出差别,那就是随机的选择一个答案,50% vs 50%的胜率。但是如果都是困难的 Coding ,又是另一番景象了。

    上面的评分数据,估计应该是解决难度均匀分布的题目(这点对评分非常重要)。如果换成都是 PK 解决难题的能力,那差距就明显不一样了。

    如果自己平时遇到的 Coding 问题,与用户投票时的问题难度分布类似,就说明差 50 分,意味着接近 3:2 的采纳比例。差距还是比较明显的。
    admirez
        11
    admirez  
       14 小时 51 分钟前
    宝马 宝骏
    lixintcwdsg
        12
    lixintcwdsg  
       14 小时 50 分钟前   ❤️ 1
    分两个问题。
    1. GLM4.7 简单问题还不错,复杂问题不如 codex 5.2 extra high 和 opus/sonnet
    2. iphone 和国产期间 iphone 不怎么行
    Wkdbq
        13
    Wkdbq  
       14 小时 50 分钟前
    我觉得 gpt 5.2 codex high 或者以上才是目前最强
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5437 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 01:39 · PVG 09:39 · LAX 17:39 · JFK 20:39
    ♥ Do have faith in what you're doing.