使用OpenAI开源的whisper来识别下casablanca及中文

tags：asr 语音识别创建时间：2023-03-19 15:50:59

OpenAI开源了其whisper有一段时间了，但大家更多关注的是其charGPT,这几天试了下whisper，觉得识别效果还是挺好的，针对中文，缺少的是其grammar的部分，或者说是中文汉语的一些语义及常用词等。还有一点可能就是里边没有把繁体和简体单独定义，所以常常会有一些繁体字在里边。

：https://github.com/openai/whisper.git

：https://gitee.com/nwaycn/whisper.git

识别效果图：

第一个文件为英文歌《casablanca》，后续两个是我们自己录制的中文语音文件。

下边我们再来首《我的未来不是梦》，看看识别结果

其使用的是torch,在生成过程中，默认的会生成对应的json、srt、tsv、txt、vtt等，如上图所示，近五分钟的录音识别过程是16.6秒左右，而小文件优势不是太大。

使用nvidia gpu来为ffmpeg(av-codec)进行运算加速

使用Paddle-gpu进行asr和tts

使用百度飞桨在WSL-DEBIAN11.5中ASR和

Debian 11安装且使用coqui-ai的TTS

nway_asr_server服务和各语言模型

写到这里，感慨一下，曾经用过的卡内基的pocketsphinx，后边一直再没见有新的发布。

上海老李，QQ:1354608370，FreeSWITCH QQ群：