FreeSWITCH及VOIP,Openser,电话机器人等产品中文技术资讯、交流、沟通、培训、咨询、服务一体化网络。QQ群:293697898
我们在前文《大模型中的小模型实现电话智能客服(视频讲解)》中,讲述了当前我们使用大模型来深化业务、收敛边界、更多智能、更强智慧地在语音业务中使用大模型,当然音视频自始一直是虽分家,但是又不得不在一起的状态,所以遇到运算量大、响应处理复杂的一些场景,就需要进一步改进音视频的对接方式。 MRCP在其中可能是一个方式,但是MRCP它的出发点一直是针对于音频资源的管理和控制。当然有些场景使用它也是适用的,但是在越来越多的ASR/TTS的实现上,MRCP反而是一个很大的问题。
就好比我们在多年前《视频电话语音交互、按键交互》中所看到的,需要对
序:
因为有人问我,在实时通话中进行说话人识别可行不可行?先说结论,可行的因素是机器好、并发少、要求不高、算法尽可能简单。反之,则是不可行的。
在电话通信广泛普及的今天,实时通话中的说话人识别成为了一个极具研究价值的课题。电话作为一种重要的通信手段,承载着大量的信息交互,从个人隐私的保护到商业机密的安全,从公共安全的维护到客户服务的精准化,在实时通话中准确识别说话人有着至关重要的意义。
电话
前言
在 FreeSWITCH 中,实现排队功能通常采用 mod_callcenter 或 mod_fifo 等模块。我们在早期也使用过这些模块,但发现它们在某些场景下的表现不够理想,因此开始不断优化和改进自己的实现。最初,我们在使用如 Dialogic、东进、三汇等硬件板卡实现排队系统,后来逐步使用 C/C++ 结合 FreeSWITCH 的 ESL 进行开发(包括 inbound 和 outbound)。最终,我们在 fsgui 中结合系统数据库实现了业务接口,推出了 mod_nwayacd 模块,并发布了开源版本。然而,mod_nwayacd 有一些局限