而应该把它想象成文字转WAV音频