估计因为现在视频领域的确很火,总会有粉丝来问阿虚怎么自动给视频加字幕(也有部分是想啃电影生肉)这个问题,感觉在后台已经有不下10人次问我了所以阿虚这里花了点时间,整理了一下这方面目前可用的工具当然如果你只有几行字幕要加,那杀鸡焉用牛刀,不如自己手动敲
因为自动识别字幕实际上就是基于的语音转文字,而阿虚在后文的测试中发现,就算是你能做到咬字清晰、普通话发音标准到不能再标准播音腔,一样会出现识别错误的情况
真想完全解放生产力,还得寄希望于往后语音识别技术的发展不过,如果你需要操作的视频时长偏长、数量偏多,那么用上以下工具肯定是能大大提高工作效率的毕竟后续去对自动识别的字幕纠错,相比自己一句句敲肯定还是要节约不少时间的
▍1 免费方案这篇的内容,阿虚就分免费方案和收费方案来介绍● 1.1 剪映(Win/安卓/iOS)在网易见外倒下后不久,被采用最多的方案之一多半就是剪映了,同时也的确是效果很不错的一个方案
本来在之前,还需要把视频传到手机APP上进行字幕生成(或者说用安卓模拟器),不过也可以说不负众望,剪映在前不久,推出了Windows桌面端:https://lv.ulikecam.com/这一下就方便了不少,而且非常良心的
目前自动生成字幕还是完全免费的功能阿虚这里用我很喜欢的一个UP主的一小段视频做测试(BV14t41147vq)如果有关注「林晨同学」的粉丝,应该知道他原来是在广播电视台工作的,有一口播音腔式、咬字清晰、非常好听的普通话
在此的基础上,用剪映自动生成的字幕,几乎完美!
不过如果你不习惯用剪映导出视频,或者只想用剪映生成字幕文件,通常的办法是:假设你用的是PR,那就是先用纯绿色对视频进行填充,导出一个绿幕视频 » 利用剪映自动识别生成字幕并导出视频 » 在PR中导入视频并抠像
(PR中抠像的方法是效果-超级键-效果控件-主要颜色)相信会用PR做视频的各位应该能明白阿虚在说些什么,如果还不会的话,可以自己到B站上找找PR抠像的教程
●1.2 Videosrt(Win/Linux)VideoSrt 是一款开源免费软件,但本身并不提供服务,而是需要自己手动申请并填写第三方公共云服务接口,配置好之后才可使用Github地址:https://
github.com/wxbool/video-srt-windows Github目前处于半墙状态,你下载此软件可能会遇到困难,建议了解《Github加速下载教程》其中生成字幕所用到的是阿里云的语音引擎,
试用版每日提供2小时的免费额度,应该是远够个人使用的了
具体API的申请&配置,作者做了长达10分钟的超详细视频教程,阿虚便不在此赘述了:https://www.yuque.com/viggo-t7cdi/videosrt/em4n10
这款软件的优势是可以生成双语字幕,输入输出语言支持:中文、英语、日语、韩语、法语、德语、西班牙语、俄语、意大利语、泰语当然想生成双语字幕的话,就得额外申请翻译API了(百度 or 腾讯),好在作者都在使用指南中给出了详细的视频配置教程
▍2 收费方案而如今更多的自动生成字幕方案其实都是付费的,同时也各有各的优势,所以阿虚在这里尽可能的列举一下
● 2.1 讯飞听见字幕(WIN/MAC)众所周知讯飞在语音识别这块也是深耕很多年的了,19年末也是推出了自己的自动生成字幕工具:https://zimu.iflyrec.com/
支持音视频格式比较多是一大优势,支持:mp4、mkv、flv、mov、wmv、mxf、avi、ts、mp3、wav、s48、amr、wma、m4a、aac、pcm在咬字清晰、普通话标准的情况下,讯飞的表现还是不错的,只有少部分识别错误
最后说一下机器快转的价格:0.48元/分钟
但这都不算是讯飞真正的优势
讯飞的优势应该是目前唯一提供人工精转的平台(如果有其他的欢迎在评论区补充)虽然自然这样价格就不便宜了,但对于复杂音频场景(比如户外、多人对话...)这可能是最省精力的解决方案了
标准音视频118元/小时,相对清晰音视频168元/小时,需要标时间戳的话,需再额外加价100元/小时另外人工精转单笔订单起步价为18元,意思是不带时间戳差不多9分钟以上的视频可以用,带时间戳的话5分钟以上可以用
● 2.2 ArcTime Pro(Win/Mac/Linux)如果你有学视频剪辑,应该是知道 ArcTime 这款知名字幕工具的:http://arctime.cn/在不久前它的作者也更新了自动语音转写+打轴功能等功能
价格的话比讯飞稍微便宜不少,新用户的话则是非常便宜了,差不多0.15元/分钟支持普通话、粤语、英语
可以无缝支持所有主流非编软件是一大优势
同时作为一款常用的字幕工具,就算不使用这个自动生成字幕,单纯用来手工加字幕,也是一个非常不错的选择
● 2.3 爱幕(网页)爱慕这个网站,原本是个开源的字幕编辑网页:https://subplayer.js.org/后来升级加上了自动识别加字幕功能:https://online.aimu-app.com/
因为新注册用户免费送了一些点数,所以阿虚顺便测试了一下,效果还不错的在咬字清晰、发音标准的情况下,做到了绝大多数识别正确
主要是价格比讯飞要便宜,如果只是语音识别的话,仅0.2元/分钟
另外此站支持中文普通话、英语、日语、粤语的语音识别● 2.4 音频自动生成字幕(网页)这个网站看起爱就比较简陋了:https://aismartvip.com/但好歹是无需注册即可使用,每天最多免费5分钟
,所以还是把它写在这里支持中英文语音/视频识别,支持28种语言字幕翻译,支持双语字幕,支持最大上传文件为5G识别率还算是可以,但对断句的判断不太准确
目前有两种引擎可用,价格为0.1元/分钟 和 0.28元/分钟
● 2.5 字幕酱(网页)这个网站看似比较简陋:https://www.zimujiang.com/但优点是60秒内视频免费生成字幕同时支持支持识别中文、粤语、英文、日语、法语、韩语、俄语、阿拉伯语、德语、西班牙语,
还可以翻译后导出双语字幕
价格的话如下,充值的越多越便宜,阿虚测试了一下差不多1分钟需要消耗0.8点
● 2.6 牛片网(网页)而如果要论目前最便宜的方案,应该就是牛片网了:https://www.6pian.cn/zimu.html目前显示限时活动中(不清楚是真的优惠,还是那种“永远在优惠中”)
不到一角钱每分钟是个大优势,但注意:购买后有效期只有1年
另外支持的识别语言包括:普通话、英语、粤语、四川话新注册用户还免费提供60分钟的转换时间
● 2.7 人人译视界(Win/Mac)最后再说这个人人影视创始团队产品的工具吧:http://www.1sj.tv/有粉丝看到人人这两个字可能就会想:人人影视最近不是凉了吗?这里就借一张图来说明一下吧:
人人译视界也和人人视频一样,早在17年就隶属 “ 正规军 ” 了,并不受此次 “ 人人影视字幕组 ” 事件影响,完全是可以正常使用的
在软件中打开视频,并点击AI听译,选择要识别的语言后耐心等待即可,软件需要把视频上传到云端进行字幕识别与生成
不过从识别出错情况(第2句)和正好讯飞一模一样,我觉得我有理由怀疑它背后用的就是讯飞的接口...但人人译视界支持的语言又远比讯飞多,所以可能是偶然情况吧
人人译视界支持:中文、英语、日语、韩语、法语、俄语、西班牙语、德语...等40种语言的AI听译,部分语种还支持口音(如美式英语、广东话等)有个特点功能是:可以识别画面中已有的字幕——意味着可以用来提取视频字幕
目前在官网进行充值显示的是正在优惠中(同样不清楚是不是一直有优惠)
价格上而言,是阿虚所知的自动生成字幕工具中最贵的,除非是对小语种有字幕自动生成有需求,不然是不太推荐的
总结一下,对于多数人,「剪映」应该是最好的方案了——简单、免费而「讯飞的人工精较」也可能是一部分人值得的选择——解决发音不标准、复杂语音场景对于其他平台,因为多多少少会有识别出错的情况,基本都需要识别后手动纠错的
所以大家就根据价格&自己所使用的平台来进行选择吧
最后的最后,顺便扩展一下,我原来写过的一篇语音转文字/文字转语音教程