V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
germain
V2EX  ›  Claude

Claude Opus 似乎是官方降智了,洗车题失败

  •  
  •   germain · 22 小时 23 分钟前 · 2719 次点击
    如图
    19 条回复    2026-04-10 01:22:18 +08:00
    b309f3337
        1
    b309f3337  
       21 小时 51 分钟前   ❤️ 1
    我最近也发感觉 opus 4.5 好像有点变傻了,以前让它做的很多功能一次性就能解决了,甚至超出我的预料,最近好几次也不算是很复杂的问题,来回好几次都搞不定
    murmur
        2
    murmur  
       21 小时 47 分钟前   ❤️ 2
    这题我见过攻击性最强的回答是米哈游那个 AI ,直接扛着车去
    germain
        3
    germain  
    OP
       21 小时 37 分钟前
    @b309f3337 甚至有几个 Opus 没能干净解决的历史问题我用免费的 qwen3.6 plus 搞定了,这几天 Claude 问题一堆,还有很多 billing 相关的问题他们的那个 fin bot 无法解决,说让我等真人 email 联系,都一周过去了,音讯全无


    @murmur 这题是快速验证模型真正算力的最简单方法了,不过这扛过去的模型我是不大敢用,怕闪着钱包
    jchencode
        4
    jchencode  
       21 小时 26 分钟前   ❤️ 1
    Opus 确实降智了,应该是跟新出的 Glasswing 有关系,Glasswing 吃掉了很多算力。

    而且,Glasswing 模型推理能力比 Opus 高出几十个百分点。。。。

    [img]https://ft.wzznft.com/i/2026/04/09/e4iicp.jpg[/img]
    99185302
        5
    99185302  
       21 小时 21 分钟前   ❤️ 2
    @b309f3337 跟 GPT 和 Gemini 聊过这种问题,得出的结果都差不多,后台会有一个叫"用户画像"的用户数据,模型会根据这个用户画像决定第一时间调用的算力和子模型。简单点说就是如果用户画像倾向于逻辑和推理,那模型会优先调用逻辑和推型的子模型会给到更高的算力;如果用户画像倾向于闲聊的话,就会优先调用简单的聊天子模型,只需要低算力就足够的这种。还有就是别拿这种问题去测试 AI ,你测试越多,就越会变傻,闲聊越多也会越来越傻。
    letwewell
        6
    letwewell  
       20 小时 55 分钟前
    对牛弹琴不能怪牛听不懂,只怪弹琴的人有问题
    csfreshman
        7
    csfreshman  
       20 小时 33 分钟前   ❤️ 1
    估计算力不够,新出的模型,延迟发布,会不会是算力不够导致的? opus 4.6 使用没这个感觉,洗车问题也回答正确。
    satoru
        8
    satoru  
       20 小时 27 分钟前   ❤️ 2
    最官方 status https://status.claude.com/ 最近故障好多
    gitdoit
        9
    gitdoit  
       20 小时 12 分钟前   ❤️ 1
    最近确实变蠢了,一个小需求干的一塌糊涂,我还以为用错模型了
    chtcrack
        10
    chtcrack  
       19 小时 47 分钟前
    @murmur 哈哈哈,这个 AI 有自己独特的想法,有前途..
    germain
        11
    germain  
    OP
       19 小时 45 分钟前
    大家感觉都差不多,这个月的额度用光之后我换 Codex 用一段时间看看
    hadi
        12
    hadi  
       19 小时 27 分钟前
    Effort Level 现在默认是 Medium ,好像还有一个设置也调整过,有检查过吗?
    germain
        13
    germain  
    OP
       18 小时 52 分钟前
    @hadi 我懒人,所以设置都固定在 claude.md 里,就算官方改了他们的默认设置,CC 也都会恢复到我自己的设置
    q534
        14
    q534  
       16 小时 46 分钟前
    @germain #13 怎么做到 Effort Level 设置在 claude.md 中的
    wsbqdyhm
        15
    wsbqdyhm  
       16 小时 24 分钟前 via iPhone
    @99185302 #5 你好,你是什么大模型,今天天气怎么样,
    vsomeone
        16
    vsomeone  
       15 小时 47 分钟前
    @hadi 没用哈,effort level 调到 high 乃至 max 都没用,就是降智了。
    dreamingms
        17
    dreamingms  
       6 小时 27 分钟前
    体感降智了,就是不行了。这行业发展了这么多年来来回回的不知道在干嘛,最开始 gpt4 也是一样,有种超越我智商的感觉,用着用着就不对劲了。现在的 opus 也是,一开始感觉能力远超我,现在又回去了,干个活我能给它指出一堆错误,不知道在搞什么。
    germain
        18
    germain  
    OP
       5 小时 2 分钟前
    @q534 现在我们所用来编程的大模型,本质上还和几年前那种聊天模型一样,都是语言类的模型。Claude Code 的所有设置都是基于人类语言的理解,然后再下达给远端的大模型。你可以在 md 文件里面用自然语言设置几乎所有参数。
    germain
        19
    germain  
    OP
       4 小时 59 分钟前
    @dreamingms 这似乎跟用户量和这个公司正在开发的新模型有必然联系。看这几天金融类和科技类关于他们公司的几个头条新闻就知道了。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   973 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 22:21 · PVG 06:21 · LAX 15:21 · JFK 18:21
    ♥ Do have faith in what you're doing.