用 M4 Max MacBook Pro + 128GB RAM 跑大模型 - V2EX

Home Sign Up Sign In

Support

› 根据产品序列号查看状态

有用链接

› Apple 产品更新周期

› Other World Computing 性能升级

› Apple 软件 Beta 测试

This topic created in 445 days ago, the information mentioned may be changed or developed.

M4 Max MacBook Pro + 128GB RAM 跑大模型：

模型使用 70GB 大小的 QwQ-32B ，精度 16 bit
LM Studio 显示的 CPU 使用率没有跑满，不过风扇开始启动了
内存使用 63GB 左右
除了风扇启动之外，其它程序的操作没有影响
QwQ-32B 在推理方面很强，推理过程当中不停地产生新的问题，然后自问自答

4 replies

1

yinmin

Mar 18, 2025 via iPhone

能跑到多少 tokens/秒？另外，8bit 的 70B 模型跑的性能如何？

2

yibie

OP

Mar 18, 2025

8bit 还不知道，之前跑 Gemma3 应该是 8 bit 精度的，20 token/s 吧，不过这个速度不恒定，看模型会不会自己卡，但一般超过 10 token/s

3

yibie

OP

Mar 18, 2025

@yinmin 8bit 还不知道，之前跑 Gemma3 应该是 8 bit 精度的，20 token/s 吧，不过这个速度不恒定，看模型会不会自己卡，但一般超过 10 token/s

4

walkon

Jul 15, 2025

我 64GB 的，跑一个 DeepSeek 8B 的风扇也会响。跑 70B 的 9.7 tokens/s ，感觉一般。

About · Help · Advertise · Blog · API · FAQ · Solana · 2797 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 31ms · UTC 10:14 · PVG 18:14 · LAX 03:14 · JFK 06:14
♥ Do have faith in what you're doing.