虽然整个过程听上去并不复杂文字转WAV音频