基于 whisper large-v2 / large-v3 模型, 3500小时数据微调, 直出中文字幕 已更新5000小时版: https://bbs.level-plus.net/read.php?tid-2690727.html
仅供个人AI学习使用, 请勿用于商业用途 本人不会收取任何形式的财物或赞助, 请注意甄别防骗 ---
基本用法将需要翻译的文件或目录, 拖动到对应的bat上运行
希望使用CPU进行翻译时, 就拖动到 "运行(CPU).bat" 上
希望使用显卡 (仅限N卡, 至少GTX 9xx) 进行翻译时, 如果显存大于或等于6G, 就拖动到 "运行(GPU).bat" 上
如果显存只有4G, 就拖动到 "运行(GPU,低显存模式).bat" 上
建议先更新显卡驱动到最新版本
上面这几个bat文件, 默认会处理目录下的所有 wav/flac/mp3 文件, 并生成相应的lrc, 如果已经存在lrc则会跳过
如果需要翻译视频, 可以使用对应的翻译视频的bat, 这些bat默认会处理 mp4/mkv 文件, 并生成相应的srt, 如果已经存在srt则会跳过
(如果需要翻译别的扩展名的文件, 可以用记事本之类的工具编辑对应的bat文件, 把原来的扩展名列表改掉就行, 大部分音频视频格式都支持, 具体可以参考压缩包内的使用说明)
---
调整生成参数(一般来说不需要调整这个, 乱调的话可能会导致生成出来的字幕质量变差)
如果遇到了说话声音很小导致漏翻的问题, 或者遇到了轴不太对幻听的问题, 可以尝试调整一下
编辑文件 generation_config.json5 可以调整生成字幕的参数
这个链接里的函数入参都可以调整:
https://github.com/SYSTRAN/faster-whisper/blob/bced5f04c09967b91ced5d2d605e4c9853b2479e/faster_whisper/transcribe.py#L206---
(直接使用打包好的程序的话不需要看这一段)如果你希望直接使用模型(自己写脚本或者用别的前端)的话, 记得设置好参数:
task='translate', language='ja', vad_filter=True, condition_on_previous_text=True
注意这里task是
translate,不是默认的transcribe,选错了的话文本质量会下降
---
有想交流AI翻译的可以来这里 (群主不是我) https://t.me/transWithAI群主提供了一个网页版,可以免费在线 转录/翻译 音频
https://tih-staging.transwith.ai---
下载地址此帖售价 0 SP币,已有 7221 人购买
若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!
---
模型更新日志( loss / cer / wer 都是越低越好 )
whisper-large-v2-translate-zh-v0.1-lt-ct2 基于 large-v2, 3500小时数据训练, bf16
- Loss: 1.2581
- Cer: 0.5632
- Wer: 1.0009
whisper-large-v3-translate-zh-v0.1-lt-ct2 基于 large-v3, 3500小时数据训练, fp16
- Loss: 1.2891
- Cer: 0.6140
- Wer: 1.0549
---
推理脚本更新日志v0.7
新增输出字幕到其他目录的功能, 具体用法请查看 "使用说明.txt" , 不需要这个功能的话可以不升级
v0.6
调整了一下生成参数, 稍微缓解了一点时间轴向前偏移的问题
v0.5
修复一个程序路径里不能带空格的bug, 如果目前能运行的话可以不升级
v0.4
修复一个异常分支的bug, 不影响使用, 低版本可以不升级
v0.3
修复解析输入参数的小bug, 允许同时输出多种字幕格式
v0.2
支持翻译视频
---
TODO(只是记一下感觉可以做的, 不一定真的做, 懒癌发作中)
[ √ ] 初版 large-v3 fp16 微调模型
[ √ ] 基于 large-v2 bf16 训练
[ ] 优化时间轴精度
[ ] 基于 large-v3 bf16 训练
[ ] 扩充直出中文的数据集
[ ] 新增转录日文的数据集