我平时用来输出词级字幕,最近测试了 qwen 的 asr 感觉准确率和时间戳都不是很准啊。。
1
106npo 3 days ago
比 large v3 更准的是 medium. large 不管是中文还是日文,幻觉太多了
|
2
heartleo 3 days ago
|
3
380cc 3 days ago
@106npo 想问问,whisper large v3 精准度比 large v2 好吗?我记得我以前用的时候,large v3 结果比 large v2 要差啊,用的 whisper kit.
|
4
ahci 3 days ago
感觉 v3 不如 v2 ,尤其是处理日语方面
|
5
neteroster 3 days ago via Android
那太多了,中文的话豆包,多语言的话
elevenlabs ,soniox |
6
wcwcxiaobin OP @106npo 我一直以为它这个模型越大,越准,时间戳也越准
|
7
wcwcxiaobin OP @ahci 你是懂日语的
|
8
jackOff 3 days ago
https://github.com/RVC-Boss/GPT-SoVITS 这个项目我用 whisper large v3 跑似乎还行?其他的没有测过
|
10
wcwcxiaobin OP @106npo 那我试试 v2
|
11
m1nm13 3 days ago
反正我是觉得 Whisper 已经过时了,而且过时好几年了。
sensevoice 这类比较新的非自回归的模型,可能效果都比它好。 |
12
noahjsn 3 days ago
@neteroster #5
这两个都是 API ,不是本地跑的 |
13
rayer4u 2 days ago
qwen3-asr 不错的,对中文、方言支持比 whisper 好
|
14
uprit 2 days ago
是挺神奇的,有时候 base 也比 large 准
|
15
wcwcxiaobin OP @rayer4u qwen 这个试了,时间戳不是很准,
|