Web  1 sites indexed in VXNA
12 articles feed address
 ahdw's recent timeline updates
ahdw

ahdw

V2EX member #328218, joined on 2018-07-10 16:05:54 +08:00
Per ahdw's settings, the topics list is hidden
Deals info, including closed deals, is not hidden
ahdw's recent replies
4 days ago
Replied to a topic by SteveRogers Local LLM 本地大模型最佳 Mac 配置选择
@SteveRogers 太贵了太贵了,我 7000 块钱搞了个 16 寸无头骑士 64GB 的 M1 Max ,够我玩一阵子了

再往上升级目前看就 M5 Max 性能提升明显,但是对比 7K 的价格,太不划算了……
May 31
Replied to a topic by SteveRogers Local LLM 本地大模型最佳 Mac 配置选择
@zhongzh 我试了一圈下来,Qwen3.6-35b-a3b-oQ8 不开思考模式是最稳的,我 hot cache 设置成 2GB ,memory guard 设置成 aggressive ,用 Pi Coding Agent ,在一个 session 里面反复探索、深入,体验和用 DSv4 Flash 这样的模型很接近了。当然,智力是明显差一些的。但是真的已经是能用的程度了。

27B 和 31B 两个,在我的 M1 Max 上最大的问题是 PP 太慢。这两个 Dense Model 对量化的容忍程度比 MoE 高,为了速度,我选了 4bit 量化,但是还是慢。差不多 10 tokens/s 的生成速度我能忍,但是真实场景里面到了中途以后,动辄 10 分钟起步的 PP 令我难以忍受。
M1 Max 也是 2 小核,我的实际感受并不是 2 个小核会导致突然卡一下,而是相对比较费电。M4 (不带后缀)的 6 小核 4 大核设计才更适合日常使用。
May 30
Replied to a topic by SteveRogers Local LLM 本地大模型最佳 Mac 配置选择
@zhongzh 你跑多大的 context ?

oMLX - LLM inference, optimized for your Mac
https://github.com/jundot/omlx
Benchmark Model: Qwen3.6-27B-MLX-VL-oQ8-fp16 (DFlash)
================================================================================

Single Request Results
--------------------------------------------------------------------------------
Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem
pp1024/tg128 9841.9 24.30 104.0 tok/s 41.5 tok/s 12.927 89.1 tok/s 31.94 GB
pp4096/tg128 38659.6 23.87 106.0 tok/s 42.2 tok/s 41.691 101.3 tok/s 34.03 GB
pp8192/tg128 77367.7 24.89 105.9 tok/s 40.5 tok/s 80.529 103.3 tok/s 35.27 GB
pp16384/tg128 160222.9 25.85 102.3 tok/s 39.0 tok/s 163.506 101.0 tok/s 37.61 GB
pp32768/tg128 349855.4 49.53 93.7 tok/s 20.3 tok/s 356.146 92.4 tok/s 42.01 GB
pp65536/tg128 801931.3 51.50 81.7 tok/s 19.6 tok/s 808.472 81.2 tok/s 47.38 GB
May 30
Replied to a topic by SteveRogers Local LLM 本地大模型最佳 Mac 配置选择
https://omlx.ai/benchmarks?chip=&chip_full=M4%7CMax%7C32&model=gemma+4+31b&quantization=&context=&pp_min=&tg_min=

你看看真实 benchmark 你能接受吗。

Qwen 27b 和 gemma 31b 这种 dense 模型还是得显卡
May 25
Replied to a topic by workbest Local LLM qwen 本地大模型的问题
用 oMLX ,然后 32GB RAM 可以很舒服地跑 gemma-4-26b-a4b-fp16 了,你选一下 oQ8 量化配短一点的上下文,或者 oQ4 量化,跑 32K 以上的上下文。

M1 和 M2 系列的 GPU 没有 bf16 格式的硬件加速,所以关键不在量化,在 fp16 上,能显著提升 PP 和 TG 的速度。

另外,Dflash 和 MTP 对 M1 系列来说,基本上净收益为负,不用浪费时间了。

Qwen3.6-35b-a3b 比那个 9B 模型强,你都有 32GB RAM 了,没必要用它了。
建议看看 oMLX 的社区评测,不要用 llama.cpp ,浪费苹果硬件
Apr 29
Replied to a topic by honmaple Google Google 搜索指定 site 参数失效
无法复现。
「然而并没有」节点预备。
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2471 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 00:41 · PVG 08:41 · LAX 17:41 · JFK 20:41
♥ Do have faith in what you're doing.