有没有比 whisper large v3 更准更强的

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

我平时用来输出词级字幕，最近测试了 qwen 的 asr 感觉准确率和时间戳都不是很准啊。。

asr

字幕

准确率

15 replies • 2026-06-03 17:19:46 +08:00

106npo

3 days ago

比 large v3 更准的是 medium. large 不管是中文还是日文,幻觉太多了

heartleo

3 days ago

elevenlabs.io

380cc

3 days ago

@106npo 想问问，whisper large v3 精准度比 large v2 好吗？我记得我以前用的时候，large v3 结果比 large v2 要差啊，用的 whisper kit.

ahci

3 days ago

感觉 v3 不如 v2 ，尤其是处理日语方面

neteroster

3 days ago via Android

那太多了，中文的话豆包，多语言的话

elevenlabs ，soniox

wcwcxiaobin

3 days ago

@106npo 我一直以为它这个模型越大，越准，时间戳也越准

wcwcxiaobin

3 days ago

@ahci 你是懂日语的

jackOff

3 days ago

https://github.com/RVC-Boss/GPT-SoVITS 这个项目我用 whisper large v3 跑似乎还行？其他的没有测过

106npo

3 days ago

@380cc v3 在大多数情况下没 v2 好,我曾经记得 openai 自己也承认这一点,不过现在找不到来源了.

wcwcxiaobin

3 days ago

@106npo 那我试试 v2

m1nm13

3 days ago

反正我是觉得 Whisper 已经过时了，而且过时好几年了。

sensevoice 这类比较新的非自回归的模型，可能效果都比它好。

noahjsn

3 days ago

@neteroster #5
这两个都是 API ，不是本地跑的

rayer4u

2 days ago

qwen3-asr 不错的，对中文、方言支持比 whisper 好

uprit

2 days ago

是挺神奇的，有时候 base 也比 large 准

wcwcxiaobin

2 days ago

@rayer4u qwen 这个试了，时间戳不是很准，