实际上单纯从通话效果上来看文字转WAV音频