所以他要做的是伺机文字转WAV音频