海南鸡饭

GF 2024-06-22 11:44

只看GF | | 小中大

whisper微调模型, 日语音频/视频直出中文字幕, 3500小时数据集 (更新large-v2版本)

~~基于 whisper large-v2 / large-v3 模型, 3500小时数据微调, 直出中文字幕~~

已更新5000小时版: https://bbs.level-plus.net/read.php?tid-2690727.html

仅供个人AI学习使用, 请勿用于商业用途

本人不会收取任何形式的财物或赞助, 请注意甄别防骗

---

基本用法

将需要翻译的文件或目录, 拖动到对应的bat上运行

希望使用CPU进行翻译时, 就拖动到 "运行(CPU).bat" 上

希望使用显卡 (仅限N卡, 至少GTX 9xx) 进行翻译时, 如果显存大于或等于6G, 就拖动到 "运行(GPU).bat" 上
如果显存只有4G, 就拖动到 "运行(GPU,低显存模式).bat" 上
建议先更新显卡驱动到最新版本

上面这几个bat文件, 默认会处理目录下的所有 wav/flac/mp3 文件, 并生成相应的lrc, 如果已经存在lrc则会跳过

如果需要翻译视频, 可以使用对应的翻译视频的bat, 这些bat默认会处理 mp4/mkv 文件, 并生成相应的srt, 如果已经存在srt则会跳过
(如果需要翻译别的扩展名的文件, 可以用记事本之类的工具编辑对应的bat文件, 把原来的扩展名列表改掉就行, 大部分音频视频格式都支持, 具体可以参考压缩包内的使用说明)

---

调整生成参数

(一般来说不需要调整这个, 乱调的话可能会导致生成出来的字幕质量变差)
如果遇到了说话声音很小导致漏翻的问题, 或者遇到了轴不太对幻听的问题, 可以尝试调整一下

编辑文件 generation_config.json5 可以调整生成字幕的参数
这个链接里的函数入参都可以调整: https://github.com/SYSTRAN/faster-whisper/blob/bced5f04c09967b91ced5d2d605e4c9853b2479e/faster_whisper/transcribe.py#L206

---

(直接使用打包好的程序的话不需要看这一段)

如果你希望直接使用模型（自己写脚本或者用别的前端）的话, 记得设置好参数:
task='translate', language='ja', vad_filter=True, condition_on_previous_text=True
注意这里task是translate，不是默认的transcribe，选错了的话文本质量会下降

---

有想交流AI翻译的可以来这里 (群主不是我)

https://t.me/transWithAI

群主提供了一个网页版，可以免费在线转录/翻译音频 https://tih-staging.transwith.ai

---

下载地址

此帖售价 0 SP币,已有 7221 人购买

若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!

---

模型更新日志
( loss / cer / wer 都是越低越好 )

whisper-large-v2-translate-zh-v0.1-lt-ct2
基于 large-v2, 3500小时数据训练, bf16
- Loss: 1.2581
- Cer: 0.5632
- Wer: 1.0009

whisper-large-v3-translate-zh-v0.1-lt-ct2
基于 large-v3, 3500小时数据训练, fp16
- Loss: 1.2891
- Cer: 0.6140
- Wer: 1.0549

---

推理脚本更新日志

v0.7
新增输出字幕到其他目录的功能, 具体用法请查看 "使用说明.txt" , 不需要这个功能的话可以不升级
v0.6
调整了一下生成参数, 稍微缓解了一点时间轴向前偏移的问题
v0.5
修复一个程序路径里不能带空格的bug, 如果目前能运行的话可以不升级
v0.4
修复一个异常分支的bug, 不影响使用, 低版本可以不升级
v0.3
修复解析输入参数的小bug, 允许同时输出多种字幕格式
v0.2
支持翻译视频

---

TODO
(只是记一下感觉可以做的, 不一定真的做, 懒癌发作中)

[ √ ] 初版 large-v3 fp16 微调模型
[ √ ] 基于 large-v2 bf16 训练
[    ] 优化时间轴精度
[    ] 基于 large-v3 bf16 训练
[    ] 扩充直出中文的数据集
[ ] 新增转录日文的数据集

顶端

白色伤痕

B1F 2024-06-22 11:53

只看该作者 | | 小中大

有新的了耶

顶端

dv1583

B2F 2024-06-22 11:54

只看该作者 | | 小中大

十分感谢大佬

顶端

？

B3F 2024-06-22 11:56

只看该作者 | | 小中大

我草好东西

顶端

夜樱

B4F 2024-06-22 12:01

只看该作者 | | 小中大

真正的好东西,感谢分享

顶端

绅士老司机

B5F 2024-06-22 12:08

（丰乳肥臀爱好者）

只看该作者 | | 小中大

用large模型生成速度是不是比较慢？

顶端

*******

B6F 2024-06-22 12:09

只看该作者 | | 小中大

“默认会处理目录下的所有 wav/flac/mp3 文件, 并生成相应的lrc”
意思是不支持视频，想要翻译视频的话要先提取音频为mp3是吗？

顶端

IAVAFSDAasfs

B7F 2024-06-22 12:15

只看该作者 | | 小中大

woc，好东西！等了好久您的模型更新了！感谢！

顶端

glass+：

B8F 2024-06-22 12:17

只看该作者 | | 小中大

顶端

orangesoup

B9F 2024-06-22 12:18

（唔。。。NTR真的是太棒了。）

只看该作者 | | 小中大

求一个百度网盘

顶端

海南鸡饭

B10F 2024-06-22 12:21

只看该作者 | | 小中大

回 6楼(98abwt) 的帖子

已新增视频翻译DLC

顶端

bit

B11F 2024-06-22 12:23

（网络无限宽广）

只看该作者 | | 小中大

大佬，我更想要视频直出日文字幕并翻译中文

你懂的

顶端

海南鸡饭

B12F 2024-06-22 12:24

只看该作者 | | 小中大

回 5楼(绅士老司机) 的帖子

挂着跑呗，效果跟速度往往都是成反比的

顶端

舔阴老头

B13F 2024-06-22 12:44

只看该作者 | | 小中大

用户被禁言,该主题自动屏蔽!

顶端

*******

B14F 2024-06-22 14:38

只看该作者 | | 小中大

回 10楼(海南鸡饭) 的帖子

编辑

顶端

忘了账号

B15F 2024-06-22 15:13

只看该作者 | | 小中大

试了一次感觉准确率已经相当高了

谢谢大佬的分享

顶端

48c6db00

B16F 2024-06-22 18:04

只看该作者 | | 小中大

我去居然有3500h的训练量了，大佬nb

顶端

MinakamiYuki

B17F 2024-06-22 18:38

只看该作者 | | 小中大

感谢大佬分享

顶端

1f93b4da

B18F 2024-06-22 19:11

只看该作者 | | 小中大

牛啊，简直神器

顶端

7d981d2f

B19F 2024-06-22 20:39

只看该作者 | | 小中大

感謝大佬

顶端

uueu

B20F 2024-06-22 22:47

只看该作者 | | 小中大

感觉好像还没之前的好，是我的错觉吗

顶端

xiaobai

B21F 2024-06-22 22:49

（好好回复挣点sp,求大哥手下留情）

只看该作者 | | 小中大

真正的好东西,感谢分享

顶端

OnTheRealms

B22F 2024-06-23 12:13

只看该作者 | | 小中大

感谢大佬

顶端

南+路人甲

B23F 2024-06-23 12:44

只看该作者 | | 小中大

这个是生成中文字幕吗？怎么设置让他生成日中双语字幕？

顶端

海南鸡饭

B24F 2024-06-23 13:10

只看该作者 | | 小中大

回 23楼(南+路人甲) 的帖子

只生成中文字幕，没有双语功能，需要双语的话可以考虑用原版whisper+其他翻译工具

顶端

看头像识SP

B25F 2024-06-23 13:40

（https://files.catbox.moe/2kwbqh.mp4）

只看该作者 | | 小中大

whisper-large-v3-translate-zh-v0.1-lt-ct2-v0.2\infer.exe
报毒
Trojan:Win32/Wacatac.B!ml

顶端

海南鸡饭

B26F 2024-06-23 13:49

只看该作者 | | 小中大

回 25楼(看头像识SP) 的帖子

Wacatac.B!ml 基本都是WD的误报，另外我这边的WD没有报这个，建议检查一下WD的病毒库是不是更新到最新了

附一个最新微软官方扫描结果：https://www.microsoft.com/en-us/wdsi/submission/dab90982-df9d-458d-a9b1-15d4a20422f6

实在不放心的话可以用别的whisper前端，只用模型

记得设置好 task='translate', language='ja', vad_filter=True, condition_on_previous_text=True

顶端

神牛

B27F 2024-06-23 16:36

只看该作者 | | 小中大

好好好，插眼

顶端

左窗南向

B28F 2024-06-24 12:37

（补丁如果失效了可以去鲲站找）

只看该作者 | | 小中大

大佬牛啊和500h的比较了一下，确实提升不少。
首先是连续的两句话能够区别开了，之前连续的几句话容易连在一起。如果某一段音频没有声音，现在也能区分出来，直接输出空白。
其次感觉翻译质量也好了一点儿，不知道是识别到的日文更准确了还是翻译部分更强了。

左边是3500h新模型

顶端

dv1583

B29F 2024-06-24 17:01

只看该作者 | | 小中大

更新好快，十分感谢

顶端

5f48db14

B30F 2024-06-24 19:06

只看该作者 | | 小中大

感谢分享

顶端

漫区特设

蜜柑计划

综合交流

人民囧府

whisper微调模型, 日语音频/视频直出中文字幕, 3500小时数据集 (更新large-v2版本)

此帖售价 0 SP币,已有 7221 人购买

回 6楼(98abwt) 的帖子

回 5楼(绅士老司机) 的帖子

回 10楼(海南鸡饭) 的帖子

回 23楼(南+路人甲) 的帖子

回 25楼(看头像识SP) 的帖子