显然是在考量该如何回答文字转WAV音频