一般都是他作答文字转WAV音频