修改VAD模型参数
# 使用场景
用户在使用asrproxy程序识别时,比如:说话很快或者说话时间短,asrproxy出现报错日志:ddtvoice appid:test fault:3 asr failed error:1 desc:silence
。说明asrproxy把用户说的话识别成了静音。
# 解决方案
这个解决方案只适用于私有化部署的ASR模型。在部署的ASR模型中有一参数:speech_noise_thres
,找到并修改这个参数的值就可以解决asrproxy程序错误识别成静音的问题。
参数作用:
- speech_noise_thres:speech的得分减去noise的得分大于此值则判断为speech,参数范围:(-1,1)。
- 取值越趋于-1,噪音被误判定为语音的概率越大,FA越高。
- 取值越趋于+1,语音被误判定为噪音的概率越大,Pmiss越高。
- 通常情况下,该值会根据当前模型在长语音测试集上的效果取balance。
# 解决步骤
如果ASR模型部署的是16K实时大模型
:
- 找到并打开
config.yaml
文件,文件路径:/ddt/asrproxy/funasr/speech_fsmn_vad_zh-cn-16k-common-onnx
。 - 找到参数
speech_noise_thres
,该参数的默认值是0.6,可以修改成 0 或者 -0.6。然后保存并退出。 - 重启asrproxy程序,重新测试。
上次更新: 2024/09/30, 18:09:18