FreeSWITCH中文网,电话机器人开发网 ,微信订阅号:

FreeSWITCH及VOIP,Openser,电话机器人等产品中文技术资讯、交流、沟通、培训、咨询、服务一体化网络。QQ群:293697898

使用OpenAI开源的whisper来识别下casablanca及中文


tags:asr 语音识别 创建时间:2023-03-19 15:50:59

  OpenAI开源了其whisper有一段时间了,但大家更多关注的是其charGPT,这几天试了下whisper,觉得识别效果还是挺好的,针对中文,缺少的是其grammar的部分,或者说是中文汉语的一些语义及常用词等。还有一点可能就是里边没有把繁体和简体单独定义,所以常常会有一些繁体字在里边。

  :https://github.com/openai/whisper.git

  :https://gitee.com/nwaycn/whisper.git

识别效果图:

cs

第一个文件为英文歌《casablanca》,后续两个是我们自己录制的中文语音文件。

下边我们再来首《我的未来不是梦》,看看识别结果

eeew

其使用的是torch,在生成过程中,默认的会生成对应的json、srt、tsv、txt、vtt等,如上图所示,近五分钟的录音识别过程是16.6秒左右,而小文件优势不是太大。

使用nvidia gpu来为ffmpeg(av-codec)进行运算加速

使用Paddle-gpu进行asr和tts

使用百度飞桨在WSL-DEBIAN11.5中ASR和

Debian 11安装且使用coqui-ai的TTS

nway_asr_server服务和各语言模型

写到这里,感慨一下,曾经用过的卡内基的pocketsphinx,后边一直再没见有新的发布。



上海老李,QQ:1354608370,FreeSWITCH QQ群: