FreeSWITCH及VOIP,Openser,电话机器人等产品中文技术资讯、交流、沟通、培训、咨询、服务一体化网络。QQ群:293697898
OpenAI开源了其whisper有一段时间了,但大家更多关注的是其charGPT,这几天试了下whisper,觉得识别效果还是挺好的,针对中文,缺少的是其grammar的部分,或者说是中文汉语的一些语义及常用词等。还有一点可能就是里边没有把繁体和简体单独定义,所以常常会有一些繁体字在里边。
:https://github.com/openai/whisper.git
:https://gitee.com/nwaycn/whisper.git
识别效果图:
第一个文件为英文歌《casablanca》,后续两个是我们自己录制的中文语音文件。
下边我们再来首《我的未来不是梦》,看看识别结果
其使用的是torch,在生成过程中,默认的会生成对应的json、srt、tsv、txt、vtt等,如上图所示,近五分钟的录音识别过程是16.6秒左右,而小文件优势不是太大。
使用nvidia gpu来为ffmpeg(av-codec)进行运算加速
使用Paddle-gpu进行asr和tts
使用百度飞桨在WSL-DEBIAN11.5中ASR和
Debian 11安装且使用coqui-ai的TTS
nway_asr_server服务和各语言模型
写到这里,感慨一下,曾经用过的卡内基的pocketsphinx,后边一直再没见有新的发布。