ahdw

V2EX member #328218, joined on 2018-07-10 16:05:54 +08:00

ahdw 提问技术话题好玩工作信息交易信息城市相关

Per ahdw's settings, the topics list is hidden

Deals info, including closed deals, is not hidden

ahdw's recent replies

4 days ago

Replied to a topic by SteveRogers › Local LLM › 本地大模型最佳 Mac 配置选择

@SteveRogers 太贵了太贵了，我 7000 块钱搞了个 16 寸无头骑士 64GB 的 M1 Max ，够我玩一阵子了

再往上升级目前看就 M5 Max 性能提升明显，但是对比 7K 的价格，太不划算了……

May 31

Replied to a topic by SteveRogers › Local LLM › 本地大模型最佳 Mac 配置选择

@zhongzh 我试了一圈下来，Qwen3.6-35b-a3b-oQ8 不开思考模式是最稳的，我 hot cache 设置成 2GB ，memory guard 设置成 aggressive ，用 Pi Coding Agent ，在一个 session 里面反复探索、深入，体验和用 DSv4 Flash 这样的模型很接近了。当然，智力是明显差一些的。但是真的已经是能用的程度了。

27B 和 31B 两个，在我的 M1 Max 上最大的问题是 PP 太慢。这两个 Dense Model 对量化的容忍程度比 MoE 高，为了速度，我选了 4bit 量化，但是还是慢。差不多 10 tokens/s 的生成速度我能忍，但是真实场景里面到了中途以后，动辄 10 分钟起步的 PP 令我难以忍受。

May 30

Replied to a topic by schen1027a1 › MacBook Pro › 二手 m1pro 抉择，佬们帮忙看看

M1 Max 也是 2 小核，我的实际感受并不是 2 个小核会导致突然卡一下，而是相对比较费电。M4 （不带后缀）的 6 小核 4 大核设计才更适合日常使用。

May 30

Replied to a topic by SteveRogers › Local LLM › 本地大模型最佳 Mac 配置选择

@zhongzh 你跑多大的 context ？

oMLX - LLM inference, optimized for your Mac
https://github.com/jundot/omlx
Benchmark Model: Qwen3.6-27B-MLX-VL-oQ8-fp16 (DFlash)
================================================================================

Single Request Results
--------------------------------------------------------------------------------
Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem
pp1024/tg128 9841.9 24.30 104.0 tok/s 41.5 tok/s 12.927 89.1 tok/s 31.94 GB
pp4096/tg128 38659.6 23.87 106.0 tok/s 42.2 tok/s 41.691 101.3 tok/s 34.03 GB
pp8192/tg128 77367.7 24.89 105.9 tok/s 40.5 tok/s 80.529 103.3 tok/s 35.27 GB
pp16384/tg128 160222.9 25.85 102.3 tok/s 39.0 tok/s 163.506 101.0 tok/s 37.61 GB
pp32768/tg128 349855.4 49.53 93.7 tok/s 20.3 tok/s 356.146 92.4 tok/s 42.01 GB
pp65536/tg128 801931.3 51.50 81.7 tok/s 19.6 tok/s 808.472 81.2 tok/s 47.38 GB

May 30

Replied to a topic by SteveRogers › Local LLM › 本地大模型最佳 Mac 配置选择

https://omlx.ai/benchmarks?chip=&chip_full=M4%7CMax%7C32&model=gemma+4+31b&quantization=&context=&pp_min=&tg_min=

你看看真实 benchmark 你能接受吗。

Qwen 27b 和 gemma 31b 这种 dense 模型还是得显卡

May 25

Replied to a topic by workbest › Local LLM › qwen 本地大模型的问题

用 oMLX ，然后 32GB RAM 可以很舒服地跑 gemma-4-26b-a4b-fp16 了，你选一下 oQ8 量化配短一点的上下文，或者 oQ4 量化，跑 32K 以上的上下文。

M1 和 M2 系列的 GPU 没有 bf16 格式的硬件加速，所以关键不在量化，在 fp16 上，能显著提升 PP 和 TG 的速度。

另外，Dflash 和 MTP 对 M1 系列来说，基本上净收益为负，不用浪费时间了。

Qwen3.6-35b-a3b 比那个 9B 模型强，你都有 32GB RAM 了，没必要用它了。

Apr 30

Replied to a topic by alangz › Local LLM › 有一台 16 寸 m1max 64g+1T 满 GPU 的 MacBook Pro 适合部署哪个本地模型

建议看看 oMLX 的社区评测，不要用 llama.cpp ，浪费苹果硬件

Apr 29

Replied to a topic by honmaple › Google › Google 搜索指定 site 参数失效

无法复现。
「然而并没有」节点预备。

» More replies by ahdw