目前 Claude 模型和国产模型的差异，是 iPhone 和国产安卓旗舰的差异还是 iPhone 和诺基亚的差异？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

因为封锁 + 懒得折腾，现在个人的 AI 开发套件是 TRAE 国际版 + GLM 4.7 coding plan 。

目前个人体验是 GLM 4.7 已经基本满足全部开发需求了，TRAE SOLE 模式用完 GPT 5.2 或者 gemini 的额度就切到 GLM 4.7 ，感受不到落差。目前不尽如人意的地方是任务大一点（包含几个可能存在交叉依赖的小任务），这三个模型基本都挂挂，我现在都是尽可能将任务拆成小的原子任务，一次只做一件事，然后 plan -> 执行 -> 验收 -> 让 AI 调整这一套流程走一轮，无论哪个模型都完成的不错。

现在非常好奇的是如果换 Claude opus 4.5 效果会怎么样，是不是大任务它也可以一次性完成，达到满意的效果？网上看了一些评测，要么就是“Claude 无敌，用了你就回不去了，GPT/GEMINI 反复搞了几个小时，换 Claude 几分钟搞定”这种无意义的评论，要么就是“用 Claude/GPT/GEMINI/GLM 生成一个美观高级的网站”这种无意义的评测，很好奇这些模型在实际开发中到底存在多大的差距。

如果是 iPhone 和国产安卓旗舰的差异，那我感觉 GLM / MiniMax 之类的国产模型也完全足够日常使用，毕竟这些国产模型对我来说近乎无限量了（ GLM 5 小时限额窗口内很少用超 50%），现在每天绞尽脑汁怎么多烧点 token 。而如果是 iPhone 和诺基亚的差异，那应该突破一切封锁去使用 Claude 模型，毕竟时间也是金钱。

后续我想计划在实际开发场景下对比测试 GLM/MiniMax/Doubao 和 Claude 模型。想听听大家的看法，或者分享分享在实际开发场景下的对比。

glm

Claude

国产模型

13 条回复 • 2026-01-25 18:49:30 +08:00

zizon

16 小时 33 分钟前

看了正文确定你的标题是认真的.

Linioi

16 小时 19 分钟前

我感觉还是看你问题的难度。
就像一张卷子，GLM 考 99 分可能是它只能考 99 分，Claude 考 100 分是因为卷子只有 100 分。
Claude Opus 4.5 使用体验真的很不错，从语气到实际表现我都挺满意的，也不像以前模型总喜欢吹嘘自己代码是生产级。所以可以用 Claude Opus 4.5 我基本不考虑别的模型。

shakaraka

PRO

16 小时 14 分钟前

有点疑惑，你想知道差距你自己试试不就知道了，别人和你说的都是主观评价

jukanntenn

16 小时 12 分钟前

@shakaraka 嗯，目前处于计划中，动手前听听大家的经验也不错。v2ex 真实开发者居多，他们的感受比小红书、知乎那些营销号可信度高很多。

billzhuang

15 小时 54 分钟前 via iPhone

这事为什么要计划？

skyflower

15 小时 34 分钟前

你在 Antigravity 里，使用 Claude 是免费的，你现在就可以去试试了

Bijiabo

15 小时 32 分钟前

你买手机的时候，会考虑自带反诈中心的的型号么？

technode

15 小时 18 分钟前

@Bijiabo 可能你会考虑内置 ICE 的型号

xing7673

15 小时 13 分钟前

我个人觉得 claude o45 只是可玩性高速度快，准确度不如 gpt ，算不上是最 top 的模型，所以没法用 iphone 对比，既然你觉得 gpt 和 glm 没有落差，那 claude 也不会让你感到有落差。
除非 trae 没有用 gpt 的 high 思考深度
opus 还是吹的人太多了

sillydaddy

15 小时 8 分钟前

https://openlm.ai/chatbot-arena/#:~:text=1445-,1460,-68

可以看一下 Elo 得分数据，好像是根据 6 百万用户的无数投票得出的评分对比：
Elo 基本是所有赛事都常用的评分机制：围棋、游戏、赛车等等。

Elo 胜率公式：胜率 = 1 / (1 + 10^(分差/400))

Elo 相差 10 分胜率 51.4% vs 胜率 48.6%，几乎无差别，运气因素更大
Elo 相差 50 分 57.1% 42.9% 略有优势，需要多次对局才能体现
Elo 相差 100 分 64.0% 36.0% 明显优势，约 2:1 的胜率
Elo 相差 200 分 76.0% 24.0% 显著优势，约 3:1 的胜率
Elo 相差 400 分 90.9% 9.1% 碾压性优势，约 10:1 的胜率
Elo 相差 1000 分 99.0% 1.0% 几乎不可能输，约 100:1 的胜率

目前的 Opus 4.5 thinking 领先 GLM 4.7 大概 50 分：
https://openlm.ai/chatbot-arena/#:~:text=1445-,1460,-68

什么意思呢？用户问 2 个 AI 一个同样的编程问题，平均用户采纳各自答案的概率分别是：57.1% vs 42.9%

当然，这必须要考虑编程的特殊性，考虑它跟直接围棋 PK 的差别。

差别就在于，用户在比较 2 个 AI 的解决方案的优劣时，待 Coding 的问题是什么困难级别的。如果都是简单级别的，那高手之间基本看不出差别，那就是随机的选择一个答案，50% vs 50%的胜率。但是如果都是困难的 Coding ，又是另一番景象了。

上面的评分数据，估计应该是解决难度均匀分布的题目（这点对评分非常重要）。如果换成都是 PK 解决难题的能力，那差距就明显不一样了。

如果自己平时遇到的 Coding 问题，与用户投票时的问题难度分布类似，就说明差 50 分，意味着接近 3:2 的采纳比例。差距还是比较明显的。

admirez

14 小时 51 分钟前

宝马宝骏

lixintcwdsg

14 小时 50 分钟前

分两个问题。
1. GLM4.7 简单问题还不错，复杂问题不如 codex 5.2 extra high 和 opus/sonnet
2. iphone 和国产期间 iphone 不怎么行

Wkdbq

14 小时 50 分钟前

我觉得 gpt 5.2 codex high 或者以上才是目前最强