CV NLP(NLU + NLG) VA(ASR + TTS) VoW:语音唤醒 VAD:语音活动检测 ASR:wenet流式识别(数据3400h,wer18%,最好4wh) 语音指令 ...