V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  neteroster  ›  全部回复第 1 页 / 共 46 页
回复总数  907
1  2  3  4  5  6  7  8  9  10 ... 46  
有点幽默了,这次是纯误封,可以看 status.openai.com 和相关负责人 X 上的发言
1 天前
回复了 w568w 创建的主题 OpenAI 我的 GPT 5.5 怎么和你们的不一样?
@w568w 那我很怀疑是你的 harness 问题了,GPT 在各种 bench 和体验反馈都是执行强,deepswe 有案例分析,原文
```
GPT implements exactly what's asked
On DeepSWE, GPT-5.5 has the lowest rate of missing stated behaviors of any configuration in the chart; GPT-5.4 sits just behind it.

GPT reads the prompt and the visible repository contract literally, and produces a patch that honors both. The behavior is consistent across runs: when several GPT trials attempt the same task, they tend to converge on the same interpretation of the prompt, suggesting this precision is a stable trait rather than per-run luck.

A natural follow-up would be to examine whether this precision comes paired with related stylistic traits, like overly defensive code, surplus error handling, or other markers of a tightly instruction-anchored coding style.
```
1 天前
回复了 w568w 创建的主题 OpenAI 我的 GPT 5.5 怎么和你们的不一样?
@neteroster 还有一个和工程代码没那么相关的就是 opus 世界知识现在似乎已经是御三家最差了,5.5 长尾世界知识已经有半步 Gemini 水平了(甚至例如 ACG QA 这类以前 GPT 差的离谱的领域),再加上最前沿的数理知识/推理水平,导致写起研究类实验代码非常舒适,我不知道其他细分领域是否也会有这样的情况,但就我自己做数学交叉方向的经验来看,只要涉及数学推理的代码我只能相信 GPT 系列
1 天前
回复了 w568w 创建的主题 OpenAI 我的 GPT 5.5 怎么和你们的不一样?
5.5 是执行的神,opus 是规划的神,我不明白有什么冲突的

opus 无论 4.6,4.7,4.8 执行就是不行,我真的不明白,一份十分明确的 spec 给进去执行出来就还是会有明确漏项或者矛盾的地方,5.5 甚至 5.4 就完全不会有这种问题(这就是为啥 5.5 在 deepswe 之类的 bench 表现如此之好)

opus 的优点就是偏好对齐,还有讨论方案,这些微妙的地方,5.x 完全不行
23 年左右是要接码注册的,也许你那时候用了接码平台自己忘了

目前无法更换,如果 Codex 需要二验就等不了
3 天前
回复了 wcwcxiaobin 创建的主题 程序员 有没有比 whisper large v3 更准更强的
那太多了,中文的话豆包,多语言的话

elevenlabs ,soniox
5 月 31 日
回复了 inostarling 创建的主题 Codex Codex 写代码确实好用,就是限额根本顶不住
fast 一般 tps 50 提到 70 ( 举例,实际 baseline 会不同),价格 2.5 倍,谁爱开谁开反正我不开(
Codex Pro 20x 比较动态根据号不同,根据反馈,平均水平大概是周限 1500~2000 刀左右,换算到月就是 6000-8000 刀,被风控可能掉到周限 <1000 刀

Claude 反馈不是很多,20x 之前看有人说周限 3000 刀+(提额之后),不确定真实性
5 月 29 日
回复了 dcvsiug 创建的主题 Claude Anthropic 发布了 Claude Opus 4.8
语言风格更加接近 GPT 了,这次是系统性的接近,有点绷不住
@hoythan pro 本来就是没啥风控的,没见多少人 pro 封号的,20x Max 最严格,不是很注意的话不少人能实现充值 1 天内被封(
5 月 27 日
回复了 hansonl 创建的主题 程序员 codex 最近 2 天巨卡, 思考 5 分钟
亚太入口似乎有点问题,建议美国节点访问
5 月 24 日
回复了 ixixi 创建的主题 程序员 deepseek-v4-pro 的 api 结合哪个编程最好用?
cc / pi coding agent
5 月 23 日
回复了 mingtdlb 创建的主题 问与答 大家用 codex、Antigravity 都开 tun 吗?
是否开 tun 与你如何决定分流无关

Clash / Mihomo / Surge 都有按应用,按 IP/IP 段分流的规则
5 月 18 日
回复了 irisdev 创建的主题 生活 建议觉得原生家庭不行的看看这个帖子
@neteroster typo: even
5 月 18 日
回复了 irisdev 创建的主题 生活 建议觉得原生家庭不行的看看这个帖子
自认为原生家庭还不错,成长环境也还不错,童年也相当让我怀念,但是看此帖仍令人不适,回复看下来,看起来已经有人帮我把核心观点说了

> 痛苦是一个人最真实、最具体的当下存在状态。而劝善往往是抛出一个虚无的、宏大的、先验的道德标准,用一个抽象的道德标准去强行裁剪、压制一个人具体的痛苦,在我看来,这就是对生命本身的本末倒置。

至于楼主说的“劝人变好,劝人更善待自己”,这里是很矛盾的一个事情,一方面从普世价值来看这当然是对的,也没有人会反对这一点,但遗憾的是,恕我直言,你无法仅仅通过在互联网上发一个这样的帖子达成这样的目的(如果这真的你原本的目的),更别说:你的主贴的语气显然比起“劝解、鼓励”更像是在:“你 AAAA 了所以 BBBB 但为什么不 CCCC”这样非常说教的语气,我认为这对你的目标人群(至少大多数)可能反而起到反效果,并且对于整体的讨论环境也并不积极,因此楼上有人说你的贴子是 not evening wrong ,怀疑你的目的,我觉得并不是空穴来风。
和 cli 一样统一用 ~/.codex/config.toml 的
5 月 17 日
回复了 daiisdai 创建的主题 Codex CodeX 的额度消耗过快,是我的错觉吗?
如果你在用桌面版检查是否开了快速模式,开了之后 2.5x 消耗
5 月 16 日
回复了 PEPEXXX 创建的主题 OpenAI 我的 OpenAI 账号被封了
是否代 kyc ,是否之前充过低价渠道会员,是否开过 API 平台

都没有的话应该误封,可以申诉试试
@JoeJoeJoe

大模型都有一些 glitch token 和特殊边界情况下的异常行为这是众所周知了,比如 gpt 系列就是 “给主人留下些什么吧”:虽然不会引起 ds 这种采样提示词的行为,但本质上其实没啥区别,也不可能是其他用户的对话。

ds 这个问题大概是因为训练数据的一些格式问题导致 <think> 的语义出现了漂移,如果想见识更多这种奇怪的行为直接用开源的 base model 或者把 instruct model 的聊天模版乱改一通就行了
这是在训练数据的提示词分布采样出来了,之前就在其他地方说过:平常采样一下回答,现在采样一个 instruction 怎么就这么那么大惊小怪...
1  2  3  4  5  6  7  8  9  10 ... 46  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2910 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 38ms · UTC 04:21 · PVG 12:21 · LAX 21:21 · JFK 00:21
♥ Do have faith in what you're doing.