懒到没朋友懒到没朋友

Chrome 实时字幕技术研究

一直好奇Chrome浏览器的语音识别弹幕,对英文的支持相当到位,但是这个隐藏式字幕无法被复制,至少在我的windows10上是无法复制,就开始搜索是否有实时字幕(Live caption)的API,经过一番搜索,发现网上对于实时字幕的资料甚少,外网也有人问是否可以通过编程方式取出这个实时字幕,但都没有靠谱的结果,似乎唯一的方式就是通过OCR识别,Chrome并不想将这项技术公布是因为他们担心会被滥用,后来发现有个大神搞了个gasr项目
SODA finally landed, client workingGasr库SODAKeyDumper
命令行调用Chrome的SODA库,但是并没有给出成品,核心在于自己需要反编译去除dll或者so库里面的几处判断,基本上就是去掉判断是否为chrome进程调用,这个issues讨论了如何逆向,但我对逆向几乎毫无了解,遂弃之,还是用ocr更加方便一点,总结就是命令行调用soda需要命令行抓取到音频并且soda.dll需要自己patch一下。

Chrome同样也有webkitSpeechRecognition这个东西,但是只能监听麦克风,下载个voicemeeter将输出转麦克风输入后,可以识别,而且可以识别几十种语言,但是效率和正确率偏低,语速快了就容易捉急,不是很好用。本来想着用webkitSpeechRecognition识别然后调用翻译接口去翻译的,效果不佳,Github上也已经有了成熟的项目,可以是iframe调用,也可以chrome插件的方式。Chrome实时语音识别翻译插件Iframe方式识别

本原创文章未经允许不得转载 | 当前页面:懒到没朋友 » Chrome 实时字幕技术研究

评论