只是后者实在难以让他理解文字转WAV音频